Wariancja współczynnika inflacji

W statystyce współczynnik inflacji wariancji ( VIF ) jest stosunkiem ( ilorazem ) wariancji oszacowania pewnego parametru w modelu, który zawiera wiele innych warunków (parametrów) przez wariancję modelu zbudowanego przy użyciu tylko jednego składnika. Określa ilościowo nasilenie współliniowości w zwykłej analizie regresji metodą najmniejszych kwadratów . Zapewnia indeks, który mierzy, jak bardzo wariancja (kwadrat odchylenia standardowego oszacowania ) szacowanego współczynnika regresji zwiększa się z powodu kolinearności. Cuthbert Daniel twierdzi, że wynalazł koncepcję czynnika inflacji wariancji, ale nie wymyślił nazwy.

Definicja

Rozważmy następujący model liniowy z k zmiennymi niezależnymi:

0 Y = β + β 1 X 1 + β 2 X 2 + ... + β k X k + ε .

Błąd standardowy oszacowania β j to pierwiastek kwadratowy z elementu przekątnej j + 1 s 2 ( X X ) −1 , gdzie s to pierwiastek błędu średniokwadratowego (RMSE) (należy zauważyć, że RMSE 2 jest spójną estymator prawdziwej wariancji składnika błędu, ); X to macierz projektu regresji — macierz taka, że Xi Xi , j +1 jest wartością j -tej zmiennej niezależnej dla i- tego przypadku lub obserwacji i taką, że , 1 , wektor predyktora związany ze składnikiem wyrazu wolnego, jest równy 1 dla wszystkich i . Okazuje się, że kwadrat tego błędu standardowego, oszacowana wariancja oszacowania β j , może być równoważnie wyrażona jako:

gdzie Rj2 jest wielokrotnością R2 ) dla regresji Xj na innych współzmiennych ( regresja, która nie obejmuje zmiennej odpowiedzi Y . Ta tożsamość oddziela wpływy kilku różnych czynników na wariancję oszacowania współczynnika:

  • s 2 : większy rozrzut danych wokół powierzchni regresji prowadzi do proporcjonalnie większej wariancji oszacowań współczynników
  • n : większa wielkość próby skutkuje proporcjonalnie mniejszą wariancją oszacowań współczynników
  • : większa zmienność określonej współzmiennej prowadzi do proporcjonalnie mniejszej wariancji odpowiedniego oszacowania współczynnika

Pozostały wyraz, 1 / (1 - R j 2 ) to VIF. Odzwierciedla wszystkie inne czynniki, które wpływają na niepewność oszacowań współczynnika. , gdy wektor Xj jest ortogonalny do każdej kolumny macierzy planu dla regresji Xj na innych współzmiennych. Natomiast VIF jest większy niż 1, gdy wektor X j nie jest prostopadły do ​​wszystkich kolumn macierzy planu dla regresji X j na innych współzmiennych. Na koniec zauważmy, że VIF jest niezmienny w stosunku do skalowania zmiennych (to znaczy, możemy skalować każdą zmienną X j przez stałą c j bez zmiany VIF).

Teraz niech i bez utraty ogólności zmieniamy kolejność kolumn X , aby ustawić pierwszą kolumnę jako

.

Używając uzupełnienia Schura , element w pierwszym rzędzie i pierwszej kolumnie w }

Następnie mamy,

Tutaj jest współczynnikiem regresji zmiennej zależnej nad współzmienną . jest odpowiednią resztkową sumą kwadratów .

Obliczenia i analizy

Możemy obliczyć k różnych VIF (po jednym dla każdego X i ) w trzech krokach:

Krok pierwszy


Najpierw przeprowadzamy zwykłą regresję najmniejszych kwadratów, w której X i jest funkcją wszystkich innych zmiennych objaśniających w pierwszym równaniu. Na przykład, jeśli i = 1, równanie byłoby

gdzie stałą, a jest wyrazem błędu .

Krok drugi

Następnie oblicz współczynnik VIF dla za pomocą następującego wzoru:

gdzie R 2 i jest współczynnikiem determinacji równania regresji w kroku pierwszym, gdzie lewej stronie i wszystkimi innymi zmiennymi predykcyjnymi (wszystkie pozostałe zmienne X) po strona.

Krok trzeci

Przeanalizuj wielkość współliniowości , biorąc pod uwagę rozmiar . Praktyczna zasada jest taka, że ​​jeśli wtedy współliniowość jest wysoka (powszechnie stosuje się również wartość odcięcia 5). Nie ma jednak wartości VIF większej od 0, przy której wariancja nachyleń predyktorów nie byłaby zawyżona. W rezultacie uwzględnienie dwóch lub więcej zmiennych w regresji wielokrotnej, które nie są ortogonalne (tj. mają korelację = 0), zmienią wzajemnie swoje nachylenie, SE nachylenia i wartość P, ponieważ istnieje wspólna wariancja między predyktorami, które nie można jednoznacznie przypisać żadnemu z nich.

Niektóre programy zamiast tego obliczają tolerancję, która jest po prostu odwrotnością VIF. Wybór, którego użyć, jest kwestią osobistych preferencji.

Interpretacja

Pierwiastek kwadratowy współczynnika inflacji wariancji wskazuje, o ile większy jest wzrost błędu standardowego w porównaniu z sytuacją, gdyby zmienna ta miała 0 korelacji z innymi zmiennymi predykcyjnymi w modelu.


Przykład Jeśli współczynnik inflacji wariancji zmiennej predykcyjnej wynosił 5,27 (√5,27 = 2,3), oznacza to, że błąd standardowy dla współczynnika tej zmiennej predykcyjnej jest 2,3 razy większy niż w przypadku, gdyby ta zmienna predykcyjna miała 0 korelacji z innymi zmiennymi predykcyjnymi.

Realizacja

Dalsza lektura

  • Allison, PD (1999). Regresja wielokrotna: Elementarz . Tysiąc Oaks, Kalifornia: Pine Forge Press. P. 142.
  • Włosy, JF; Anderson R.; Tatham, RL; Czarny, toaleta (2006). Analiza danych wielowymiarowych . Upper Saddle River, NJ: Prentice Hall.
  • Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Zastosowane modele regresji liniowej (wyd. 4). McGraw-Hill Irwin.
  • Longnecker, MT; Ott, RL (2004). Pierwszy kurs metod statystycznych . Thomsona Brooksa/Cole'a. P. 615.
  • Marquardt, DW (1970). „Uogólnione odwrotności, regresja grzbietu, obciążona estymacja liniowa i estymacja nieliniowa”. Technometria . 12 (3): 591–612 [s. 605–7]. doi : 10.1080/00401706.1970.10488699 .
  • Studenmund, AH (2006). Korzystanie z ekonometrii: praktyczny przewodnik (wyd. 5). Międzynarodowy Pearson. s. 258–259.
  •   Zuur, AF; Ieno, EN; Elphick, CS (2010). „Protokół eksploracji danych w celu uniknięcia typowych problemów statystycznych”. Metody w ekologii i ewolucji . 1 : 3–14. doi : 10.1111/j.2041-210X.2009.00001.x . S2CID 18814132 .

Zobacz też