Pseudo-R-kwadrat
pseudo-R-kwadrat stosuje się , gdy zmienna wynikowa jest nominalna lub porządkowa, tak że współczynnik determinacji R2 nie może być zastosowany jako miara dobroci dopasowania.
W regresji liniowej kwadrat korelacji wielokrotnej R2 jest używany do oceny dobroci dopasowania, ponieważ reprezentuje odsetek wariancji w kryterium, który jest wyjaśniony przez predyktory . W analizie regresji logistycznej nie ma uzgodnionej analogicznej miary, ale istnieje kilka konkurencyjnych miar, z których każda ma ograniczenia.
W tym artykule przeanalizowano cztery najczęściej używane wskaźniki i jeden rzadziej używany:
- Współczynnik wiarygodności R 2 L
- Cox i Snell R 2 CS
- Nagelkerke R 2 N
- McFadden R2 McF _
- Tjur R 2 T
R2L autorstwa Cohena _
R2L podaje Cohen :
Jest to najbardziej analogiczny wskaźnik do kwadratu wielokrotnych korelacji w regresji liniowej. Reprezentuje proporcjonalną redukcję odchylenia, przy czym odchylenie jest traktowane jako miara zmienności analogiczna, ale nie identyczna z wariancją w analizie regresji liniowej . Jednym z ograniczeń ilorazu prawdopodobieństwa R2 jest to, że nie jest on monotonicznie powiązany z ilorazem szans, co oznacza, że niekoniecznie wzrasta wraz ze wzrostem ilorazu szans i niekoniecznie maleje wraz ze spadkiem ilorazu szans .
R 2 CS autorstwa Coxa i Snella
R2CS jest alternatywnym wskaźnikiem dopasowania związanym z wartością R2 z regresji liniowej . Podaje go:
gdzie L M i L 0 są odpowiednio prawdopodobieństwem dopasowanego modelu i modelu zerowego. Indeks Coxa i Snella jest problematyczny, ponieważ jego maksymalna wartość wynosi . Najwyższa możliwa górna granica to 0,75, ale z łatwością może wynosić nawet 0,48, gdy krańcowa proporcja przypadków jest niewielka.
R2N firmy Nagelkerke _
R 2 N , zaproponowane przez Nico Nagelkerke w często cytowanym artykule Biometrika, zapewnia poprawkę do R 2 Coxa i Snella , tak aby maksymalna wartość była równa 1. Niemniej jednak, Cox i Snell oraz iloraz wiarygodności R 2 s wykazują większą zgodność ze sobą niż którykolwiek z Nagelkerke R 2 . Oczywiście może tak nie być w przypadku wartości przekraczających 0,75, ponieważ indeks Coxa i Snella jest ograniczony do tej wartości. Współczynnik prawdopodobieństwa R 2 jest często preferowany w stosunku do alternatyw, ponieważ jest najbardziej analogiczny do R 2 w regresji liniowej , jest niezależny od współczynnika podstawowego (zarówno Cox i Snell, jak i Nagelkerke R 2 s wzrasta wraz ze wzrostem odsetka przypadków od 0 do 0,5) i waha się między 0 i 1.
R2 McF firmy McFadden
R2McF jest zdefiniowany jako
i jest preferowany przez Allison w stosunku do R2CS . Dwa wyrażenia R 2 McF i R 2 CS są następnie odpowiednio powiązane przez,
R2T autorstwa Tjura _
Jednak Allison preferuje teraz R2T , które jest stosunkowo nową miarą opracowaną przez Tjura. Można to obliczyć w dwóch krokach:
- Dla każdego poziomu zmiennej zależnej znajdź średnią przewidywanych prawdopodobieństw zdarzenia.
- Weź wartość bezwzględną różnicy między tymi średnimi
Interpretacja
statystyk pseudo - R2 należy zachować ostrożność . Powodem, dla którego te wskaźniki dopasowania są określane jako pseudoR2 , jest to , że nie reprezentują one proporcjonalnej redukcji błędu, jak ma to miejsce w przypadku R2 w regresji liniowej . Regresja liniowa zakłada homoskedastyczność , czyli wariancja błędu jest taka sama dla wszystkich wartości kryterium. Regresja logistyczna zawsze będzie heteroskedastyczna – wariancje błędów są różne dla każdej wartości przewidywanego wyniku. Dla każdej wartości przewidywanego wyniku byłaby inna wartość proporcjonalnej redukcji błędu. Dlatego niewłaściwe jest myślenie o R2 jako o proporcjonalnej redukcji błędu w sensie uniwersalnym w regresji logistycznej .
- ^ a b c d e f g Cohen, Jakub; Cohen, Patrycja; Zachód, Steven G.; Aiken, Leona S. (2002). Stosowana analiza regresji wielokrotnej / korelacji dla nauk behawioralnych (wyd. 3). Routledge'a. ISBN 978-0-8058-2223-6 . [ potrzebna strona ]
- ^ a b c d e Allison, Paul D. „Miary dopasowania do regresji logistycznej” (PDF) . Statistical Horizons LLC i University of Pennsylvania.
- ^ ab Menard , Scott W. (2002). Stosowana regresja logistyczna (wyd. 2). SZAŁWIA. ISBN 978-0-7619-2208-7 . [ potrzebna strona ]
- ^ Tjur, wtorek (2009). „Współczynniki determinacji w modelach regresji logistycznej”. Amerykański statystyk : 366–372. doi : 10.1198/tast.2009.08210 . S2CID 121927418 . [ potrzebne pełne cytowanie ]