Wariancja współczynnika inflacji
W statystyce współczynnik inflacji wariancji ( VIF ) jest stosunkiem ( ilorazem ) wariancji oszacowania pewnego parametru w modelu, który zawiera wiele innych warunków (parametrów) przez wariancję modelu zbudowanego przy użyciu tylko jednego składnika. Określa ilościowo nasilenie współliniowości w zwykłej analizie regresji metodą najmniejszych kwadratów . Zapewnia indeks, który mierzy, jak bardzo wariancja (kwadrat odchylenia standardowego oszacowania ) szacowanego współczynnika regresji zwiększa się z powodu kolinearności. Cuthbert Daniel twierdzi, że wynalazł koncepcję czynnika inflacji wariancji, ale nie wymyślił nazwy.
Definicja
Rozważmy następujący model liniowy z k zmiennymi niezależnymi:
- 0 Y = β + β 1 X 1 + β 2 X 2 + ... + β k X k + ε .
Błąd standardowy oszacowania β j to pierwiastek kwadratowy z elementu przekątnej j + 1 s 2 ( X ′ X ) −1 , gdzie s to pierwiastek błędu średniokwadratowego (RMSE) (należy zauważyć, że RMSE 2 jest spójną estymator prawdziwej wariancji składnika błędu, ); X to macierz projektu regresji — macierz taka, że Xi Xi , j +1 jest wartością j -tej zmiennej niezależnej dla i- tego przypadku lub obserwacji i taką, że , 1 , wektor predyktora związany ze składnikiem wyrazu wolnego, jest równy 1 dla wszystkich i . Okazuje się, że kwadrat tego błędu standardowego, oszacowana wariancja oszacowania β j , może być równoważnie wyrażona jako:
gdzie Rj2 jest wielokrotnością R2 ) dla regresji Xj na innych współzmiennych ( regresja, która nie obejmuje zmiennej odpowiedzi Y . Ta tożsamość oddziela wpływy kilku różnych czynników na wariancję oszacowania współczynnika:
- s 2 : większy rozrzut danych wokół powierzchni regresji prowadzi do proporcjonalnie większej wariancji oszacowań współczynników
- n : większa wielkość próby skutkuje proporcjonalnie mniejszą wariancją oszacowań współczynników
- : większa zmienność określonej współzmiennej prowadzi do proporcjonalnie mniejszej wariancji odpowiedniego oszacowania współczynnika
Pozostały wyraz, 1 / (1 - R j 2 ) to VIF. Odzwierciedla wszystkie inne czynniki, które wpływają na niepewność oszacowań współczynnika. , gdy wektor Xj jest ortogonalny do każdej kolumny macierzy planu dla regresji Xj na innych współzmiennych. Natomiast VIF jest większy niż 1, gdy wektor X j nie jest prostopadły do wszystkich kolumn macierzy planu dla regresji X j na innych współzmiennych. Na koniec zauważmy, że VIF jest niezmienny w stosunku do skalowania zmiennych (to znaczy, możemy skalować każdą zmienną X j przez stałą c j bez zmiany VIF).
Teraz niech i bez utraty ogólności zmieniamy kolejność kolumn X , aby ustawić pierwszą kolumnę jako
- .
Używając uzupełnienia Schura , element w pierwszym rzędzie i pierwszej kolumnie w }
Następnie mamy,
Tutaj jest współczynnikiem regresji zmiennej zależnej nad współzmienną . jest odpowiednią resztkową sumą kwadratów .
Obliczenia i analizy
Możemy obliczyć k różnych VIF (po jednym dla każdego X i ) w trzech krokach:
Krok pierwszy
Najpierw przeprowadzamy zwykłą regresję najmniejszych kwadratów, w której X i jest funkcją wszystkich innych zmiennych objaśniających w pierwszym równaniu. Na przykład, jeśli i = 1, równanie byłoby
gdzie stałą, a jest wyrazem błędu .
Krok drugi
Następnie oblicz współczynnik VIF dla za pomocą następującego wzoru:
gdzie R 2 i jest współczynnikiem determinacji równania regresji w kroku pierwszym, gdzie lewej stronie i wszystkimi innymi zmiennymi predykcyjnymi (wszystkie pozostałe zmienne X) po strona.
Krok trzeci
Przeanalizuj wielkość współliniowości , biorąc pod uwagę rozmiar . Praktyczna zasada jest taka, że jeśli wtedy współliniowość jest wysoka (powszechnie stosuje się również wartość odcięcia 5). Nie ma jednak wartości VIF większej od 0, przy której wariancja nachyleń predyktorów nie byłaby zawyżona. W rezultacie uwzględnienie dwóch lub więcej zmiennych w regresji wielokrotnej, które nie są ortogonalne (tj. mają korelację = 0), zmienią wzajemnie swoje nachylenie, SE nachylenia i wartość P, ponieważ istnieje wspólna wariancja między predyktorami, które nie można jednoznacznie przypisać żadnemu z nich.
Niektóre programy zamiast tego obliczają tolerancję, która jest po prostu odwrotnością VIF. Wybór, którego użyć, jest kwestią osobistych preferencji.
Interpretacja
Pierwiastek kwadratowy współczynnika inflacji wariancji wskazuje, o ile większy jest wzrost błędu standardowego w porównaniu z sytuacją, gdyby zmienna ta miała 0 korelacji z innymi zmiennymi predykcyjnymi w modelu.
Przykład Jeśli współczynnik inflacji wariancji zmiennej predykcyjnej wynosił 5,27 (√5,27 = 2,3), oznacza to, że błąd standardowy dla współczynnika tej zmiennej predykcyjnej jest 2,3 razy większy niż w przypadku, gdyby ta zmienna predykcyjna miała 0 korelacji z innymi zmiennymi predykcyjnymi.
Realizacja
-
vif
w pakiecie samochodowym R -
ols_vif_tol
w pakiecie olsrr R -
PROC REG
w systemie SAS -
variance_inflation_factor
w pakiecie Pythona statsmodels -
estat vif
w Stata - r.vif dodatek do GRASS GIS
Dalsza lektura
- Allison, PD (1999). Regresja wielokrotna: Elementarz . Tysiąc Oaks, Kalifornia: Pine Forge Press. P. 142.
- Włosy, JF; Anderson R.; Tatham, RL; Czarny, toaleta (2006). Analiza danych wielowymiarowych . Upper Saddle River, NJ: Prentice Hall.
- Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Zastosowane modele regresji liniowej (wyd. 4). McGraw-Hill Irwin.
- Longnecker, MT; Ott, RL (2004). Pierwszy kurs metod statystycznych . Thomsona Brooksa/Cole'a. P. 615.
- Marquardt, DW (1970). „Uogólnione odwrotności, regresja grzbietu, obciążona estymacja liniowa i estymacja nieliniowa”. Technometria . 12 (3): 591–612 [s. 605–7]. doi : 10.1080/00401706.1970.10488699 .
- Studenmund, AH (2006). Korzystanie z ekonometrii: praktyczny przewodnik (wyd. 5). Międzynarodowy Pearson. s. 258–259.
- Zuur, AF; Ieno, EN; Elphick, CS (2010). „Protokół eksploracji danych w celu uniknięcia typowych problemów statystycznych”. Metody w ekologii i ewolucji . 1 : 3–14. doi : 10.1111/j.2041-210X.2009.00001.x . S2CID 18814132 .