Dystans Cooka

W statystyce odległość Cooka lub D Cooka jest powszechnie używanym oszacowaniem wpływu punktu danych podczas przeprowadzania analizy regresji metodą najmniejszych kwadratów . W praktycznej zwykłej analizie metodą najmniejszych kwadratów odległość Cooka może być wykorzystana na kilka sposobów: do wskazania wpływowych punktów danych, które szczególnie warto sprawdzić pod kątem ważności; lub wskazać obszary przestrzeni projektowej, w których dobrze byłoby uzyskać więcej punktów danych. Jej nazwa pochodzi od amerykańskiego statystyka R. Dennisa Cooka , który wprowadził tę koncepcję w 1977 roku.

Definicja

Punkty danych z dużymi wartościami resztowymi ( odstającymi ) i/lub wysoką dźwignią mogą zniekształcić wynik i dokładność regresji. Odległość Cooka mierzy efekt usunięcia danej obserwacji. Uważa się, że punkty o dużej odległości Cooka zasługują na dokładniejsze zbadanie w analizie.

Dla wyrażenia algebraicznego najpierw zdefiniuj

gdzie jest terminem błędu , to macierz współczynników, to liczba współzmiennych lub predyktorów dla każdej obserwacji, a to macierz projektu zawierająca stałą. Estymator najmniejszych kwadratów to aw konsekwencji dopasowane (przewidywane) wartości średniej z

gdzie to macierz projekcji (lub macierz kapelusza). Ja element przekątnej , dany przez znany jako dźwignia obserwacji . Podobnie -ty element wektora resztkowego jest oznaczony przez .

Cooka n } zdefiniowane jako suma wszystkich zmian w modelu regresji po usunięciu z niego obserwacji

gdzie dopasowaną odpowiedzi modelu regresji .

Równoważnie można to wyrazić za pomocą dźwigni ( ):

Wykrywanie bardzo wpływowych obserwacji

Istnieją różne opinie na temat tego, jakich wartości odcięcia należy użyć do wykrywania punktów o dużym wpływie . Ponieważ odległość Cooka metryką rozkładu F z i ( definicją dla macierzy projektu powyżej) stopniami swobody, punkt środkowy punkt bliska 1 dla dużych , zasugerowano operacyjną Należy zauważyć, że miara odległości Cooka nie zawsze poprawnie identyfikuje wpływowe obserwacje.

Związek z innymi miarami wpływu (i interpretacja)

{ można wyrazić za pomocą dźwigni i wewnętrznie studenckiej ), jak następuje:

Zaletą ostatniego sformułowania jest to, że wyraźnie pokazuje związek między i ^ (podczas gdy p i n są takie same dla wszystkich obserwacji). Jeśli to (dla wartości innych niż ekstremalne wzrośnie . ja jest bliski 0, to a jeśli jest bliski 1, to stanie się bardzo duży (o ile , tj. że obserwacja nie jest dokładnie na linii regresji, która została dopasowana bez obserwacji ).

jest powiązany z DFFITS poprzez następujący związek (zauważ, że zewnętrzną studentyzowaną resztą i są zdefiniowane tutaj ):

która reprezentuje obszar prawdopodobnych wartości parametrów. [ potrzebne wyjaśnienie ] Pokazuje to alternatywna, ale równoważna reprezentacja odległości Cooka pod względem zmian oszacowań parametrów regresji między przypadkami, w których dana obserwacja jest albo uwzględniona, albo wyłączona z analizy regresji.


Zaproponowano alternatywę dla Zamiast rozważać wpływ pojedynczej obserwacji na ogólny model, statystyki jako miara tego, jak czułe jest przewidywanie usunięcie każdej obserwacji w oryginalnym zbiorze danych. Można go sformułować jako ważoną liniową kombinację . Ponownie macierz projekcji jest zaangażowana w obliczenia w celu uzyskania wymaganych wag:


jot ( ) przypomina korelację między przewidywaniami i . W przeciwieństwie do rozkład dla dużych próbek i modeli z W przypadku wynosi . Wpływową obserwację można zidentyfikować, jeśli



m jako mediana i jako mediana bezwzględnego odchylenia wszystkich -wartości w oryginalnym zbiorze danych, tj. solidna miara lokalizacji i solidna miara skali dla rozkładu . Współczynnik 4,5 obejmuje ok. 3 odchylenia standardowe wokół . W porównaniu z dystansem Cooka, okazało się, że dobrze radzi sobie z wartościami odstającymi o wysokim i średnim lewarowaniu, nawet w obecności . ciekawe, i są \ \ skutki usunięcia punktu danych na -tej prognozie:

Mając pod ręką, jest podane przez:

gdzie jeśli jest symetryczny i idempotentny , co niekoniecznie musi mieć miejsce . W przeciwieństwie do tego, można obliczyć jako:

gdzie wyodrębnia główną przekątną kwadratowej macierzy . W tym kontekście wpływu, podczas gdy przypomina tak zwaną macierz czułości. Analiza wektorów własnych - które mają te same wartości własne - służy jako narzędzie do wykrywania wartości odstających, chociaż wektory własne macierzy czułości są bardziej M {\ } potężny.

Implementacje oprogramowania

Wiele programów i pakietów statystycznych, takich jak R , Python itp., zawiera implementacje odległości Cooka.

Język/Program Funkcjonować Notatki
R kucharze.odległość(model, ...) Zobacz [1]
Pyton CooksDistance().fit(X, y) Zobacz [2]

Rozszerzenia

Wysokowymiarowa miara wpływu (HIM) jest alternatywą dla odległości Cooka, gdy . Gdy jest więcej predyktorów niż obserwacji Podczas gdy odległość Cooka określa ilościowo wpływ indywidualnej obserwacji na oszacowanie współczynnika regresji metodą najmniejszych kwadratów, HIM mierzy wpływ obserwacji na korelacje krańcowe.

Zobacz też

Notatki

Dalsza lektura