Pseudo-R-kwadrat

pseudo-R-kwadrat stosuje się , gdy zmienna wynikowa jest nominalna lub porządkowa, tak że współczynnik determinacji R2 nie może być zastosowany jako miara dobroci dopasowania.

W regresji liniowej kwadrat korelacji wielokrotnej R2 jest używany do oceny dobroci dopasowania, ponieważ reprezentuje odsetek wariancji w kryterium, który jest wyjaśniony przez predyktory . W analizie regresji logistycznej nie ma uzgodnionej analogicznej miary, ale istnieje kilka konkurencyjnych miar, z których każda ma ograniczenia.

W tym artykule przeanalizowano cztery najczęściej używane wskaźniki i jeden rzadziej używany:

  • Współczynnik wiarygodności R 2 L
  • Cox i Snell R 2 CS
  • Nagelkerke R 2 N
  • McFadden R2 McF _
  • Tjur R 2 T

R2L autorstwa Cohena _

R2L podaje Cohen :

Jest to najbardziej analogiczny wskaźnik do kwadratu wielokrotnych korelacji w regresji liniowej. Reprezentuje proporcjonalną redukcję odchylenia, przy czym odchylenie jest traktowane jako miara zmienności analogiczna, ale nie identyczna z wariancją w analizie regresji liniowej . Jednym z ograniczeń ilorazu prawdopodobieństwa R2 jest to, że nie jest on monotonicznie powiązany z ilorazem szans, co oznacza, że ​​niekoniecznie wzrasta wraz ze wzrostem ilorazu szans i niekoniecznie maleje wraz ze spadkiem ilorazu szans .

R 2 CS autorstwa Coxa i Snella

R2CS jest alternatywnym wskaźnikiem dopasowania związanym z wartością R2 z regresji liniowej . Podaje go:

gdzie L M i L 0 są odpowiednio prawdopodobieństwem dopasowanego modelu i modelu zerowego. Indeks Coxa i Snella jest problematyczny, ponieważ jego maksymalna wartość wynosi . Najwyższa możliwa górna granica to 0,75, ale z łatwością może wynosić nawet 0,48, gdy krańcowa proporcja przypadków jest niewielka.

R2N firmy Nagelkerke _

R 2 N , zaproponowane przez Nico Nagelkerke w często cytowanym artykule Biometrika, zapewnia poprawkę do R 2 Coxa i Snella , tak aby maksymalna wartość była równa 1. Niemniej jednak, Cox i Snell oraz iloraz wiarygodności R 2 s wykazują większą zgodność ze sobą niż którykolwiek z Nagelkerke R 2 . Oczywiście może tak nie być w przypadku wartości przekraczających 0,75, ponieważ indeks Coxa i Snella jest ograniczony do tej wartości. Współczynnik prawdopodobieństwa R 2 jest często preferowany w stosunku do alternatyw, ponieważ jest najbardziej analogiczny do R 2 w regresji liniowej , jest niezależny od współczynnika podstawowego (zarówno Cox i Snell, jak i Nagelkerke R 2 s wzrasta wraz ze wzrostem odsetka przypadków od 0 do 0,5) i waha się między 0 i 1.

R2 McF firmy McFadden

R2McF jest zdefiniowany jako

i jest preferowany przez Allison w stosunku do R2CS . Dwa wyrażenia R 2 McF i R 2 CS są następnie odpowiednio powiązane przez,

R2T autorstwa Tjura _

Jednak Allison preferuje teraz R2T , które jest stosunkowo nową miarą opracowaną przez Tjura. Można to obliczyć w dwóch krokach:

  1. Dla każdego poziomu zmiennej zależnej znajdź średnią przewidywanych prawdopodobieństw zdarzenia.
  2. Weź wartość bezwzględną różnicy między tymi średnimi

Interpretacja

statystyk pseudo - R2 należy zachować ostrożność . Powodem, dla którego te wskaźniki dopasowania są określane jako pseudoR2 , jest to , że nie reprezentują one proporcjonalnej redukcji błędu, jak ma to miejsce w przypadku R2 w regresji liniowej . Regresja liniowa zakłada homoskedastyczność , czyli wariancja błędu jest taka sama dla wszystkich wartości kryterium. Regresja logistyczna zawsze będzie heteroskedastyczna – wariancje błędów są różne dla każdej wartości przewidywanego wyniku. Dla każdej wartości przewidywanego wyniku byłaby inna wartość proporcjonalnej redukcji błędu. Dlatego niewłaściwe jest myślenie o R2 jako o proporcjonalnej redukcji błędu w sensie uniwersalnym w regresji logistycznej .

  1. ^ a b c d e f g   Cohen, Jakub; Cohen, Patrycja; Zachód, Steven G.; Aiken, Leona S. (2002). Stosowana analiza regresji wielokrotnej / korelacji dla nauk behawioralnych (wyd. 3). Routledge'a. ISBN 978-0-8058-2223-6 . [ potrzebna strona ]
  2. ^ a b c d e Allison, Paul D. „Miary dopasowania do regresji logistycznej” (PDF) . Statistical Horizons LLC i University of Pennsylvania.
  3. ^ ab Menard   , Scott W. (2002). Stosowana regresja logistyczna (wyd. 2). SZAŁWIA. ISBN 978-0-7619-2208-7 . [ potrzebna strona ]
  4. ^   Tjur, wtorek (2009). „Współczynniki determinacji w modelach regresji logistycznej”. Amerykański statystyk : 366–372. doi : 10.1198/tast.2009.08210 . S2CID 121927418 . [ potrzebne pełne cytowanie ]