W statystyce odległość Cooka lub D Cooka jest powszechnie używanym oszacowaniem wpływu punktu danych podczas przeprowadzania analizy regresji metodą najmniejszych kwadratów . W praktycznej zwykłej analizie metodą najmniejszych kwadratów odległość Cooka może być wykorzystana na kilka sposobów: do wskazania wpływowych punktów danych, które szczególnie warto sprawdzić pod kątem ważności; lub wskazać obszary przestrzeni projektowej, w których dobrze byłoby uzyskać więcej punktów danych. Jej nazwa pochodzi od amerykańskiego statystyka R. Dennisa Cooka , który wprowadził tę koncepcję w 1977 roku.
Punkty danych z dużymi wartościami resztowymi ( odstającymi ) i/lub wysoką dźwignią mogą zniekształcić wynik i dokładność regresji. Odległość Cooka mierzy efekt usunięcia danej obserwacji. Uważa się, że punkty o dużej odległości Cooka zasługują na dokładniejsze zbadanie w analizie.
Dla wyrażenia algebraicznego najpierw zdefiniuj
gdzie jest terminem błędu , to macierz współczynników, to liczba współzmiennych lub predyktorów dla każdej obserwacji, a to macierz projektu zawierająca stałą. Estymator najmniejszych kwadratów to aw konsekwencji dopasowane (przewidywane) wartości średniej z
gdzie to macierz projekcji (lub macierz kapelusza). Ja element przekątnej , dany przez znany jako dźwignia obserwacji . Podobnie -ty element wektora resztkowego jest oznaczony przez .
Cooka n } zdefiniowane jako suma wszystkich zmian w modelu regresji po usunięciu z niego obserwacji
Równoważnie można to wyrazić za pomocą dźwigni ( ):
Wykrywanie bardzo wpływowych obserwacji
Istnieją różne opinie na temat tego, jakich wartości odcięcia należy użyć do wykrywania punktów o dużym wpływie . Ponieważ odległość Cooka metryką rozkładu F z i ( definicją dla macierzy projektu powyżej) stopniami swobody, punkt środkowy punkt bliska 1 dla dużych , zasugerowano operacyjną Należy zauważyć, że miara odległości Cooka nie zawsze poprawnie identyfikuje wpływowe obserwacje.
Związek z innymi miarami wpływu (i interpretacja)
{ można wyrazić za pomocą dźwigni i wewnętrznie studenckiej ), jak następuje:
Zaletą ostatniego sformułowania jest to, że wyraźnie pokazuje związek między i ^ (podczas gdy p i n są takie same dla wszystkich obserwacji). Jeśli to (dla wartości innych niż ekstremalne wzrośnie . ja jest bliski 0, to a jeśli jest bliski 1, to stanie się bardzo duży (o ile , tj. że obserwacja nie jest dokładnie na linii regresji, która została dopasowana bez obserwacji ).
jest powiązany z DFFITS poprzez następujący związek (zauważ, że zewnętrzną studentyzowaną resztą i są zdefiniowane tutaj ):
która reprezentuje obszar prawdopodobnych wartości parametrów. [ potrzebne wyjaśnienie ] Pokazuje to alternatywna, ale równoważna reprezentacja odległości Cooka pod względem zmian oszacowań parametrów regresji między przypadkami, w których dana obserwacja jest albo uwzględniona, albo wyłączona z analizy regresji.
Zaproponowano alternatywę dla Zamiast rozważać wpływ pojedynczej obserwacji na ogólny model, statystyki jako miara tego, jak czułe jest przewidywanie usunięcie każdej obserwacji w oryginalnym zbiorze danych. Można go sformułować jako ważoną liniową kombinację . Ponownie macierz projekcji jest zaangażowana w obliczenia w celu uzyskania wymaganych wag:
jot ( ) przypomina korelację między przewidywaniami i . W przeciwieństwie do rozkład dla dużych próbek i modeli z W przypadku wynosi . Wpływową obserwację można zidentyfikować, jeśli
m jako mediana i jako mediana bezwzględnego odchylenia wszystkich -wartości w oryginalnym zbiorze danych, tj. solidna miara lokalizacji i solidna miara skali dla rozkładu . Współczynnik 4,5 obejmuje ok. 3 odchylenia standardowe wokół . W porównaniu z dystansem Cooka, okazało się, że dobrze radzi sobie z wartościami odstającymi o wysokim i średnim lewarowaniu, nawet w obecności . ciekawe, i są \ \ skutki usunięcia punktu danych na -tej prognozie:
gdzie wyodrębnia główną przekątną kwadratowej macierzy . W tym kontekście wpływu, podczas gdy przypomina tak zwaną macierz czułości. Analiza wektorów własnych - które mają te same wartości własne - służy jako narzędzie do wykrywania wartości odstających, chociaż wektory własne macierzy czułości są bardziej M {\ } potężny.
Implementacje oprogramowania
Wiele programów i pakietów statystycznych, takich jak R , Python itp., zawiera implementacje odległości Cooka.
Wysokowymiarowa miara wpływu (HIM) jest alternatywą dla odległości Cooka, gdy . Gdy jest więcej predyktorów niż obserwacji Podczas gdy odległość Cooka określa ilościowo wpływ indywidualnej obserwacji na oszacowanie współczynnika regresji metodą najmniejszych kwadratów, HIM mierzy wpływ obserwacji na korelacje krańcowe.