Wielowspółliniowość
W statystyce współliniowość (również kolinearność ) to zjawisko, w którym jedną zmienną predykcyjną w modelu regresji wielokrotnej można przewidzieć liniowo na podstawie innych ze znacznym stopniem dokładności. W tej sytuacji oszacowania współczynników regresji wielokrotnej mogą zmieniać się nieregularnie w odpowiedzi na niewielkie zmiany w modelu lub danych. Wieloliniowość nie zmniejsza mocy predykcyjnej ani niezawodności modelu jako całości, przynajmniej w ramach przykładowego zbioru danych; wpływa tylko na obliczenia dotyczące poszczególnych predyktorów . Oznacza to, że model regresji wielowymiarowej z predyktorami kolinearnymi może wskazywać, jak dobrze cała wiązka predyktorów przewiduje zmienną wynikową , ale może nie dawać prawidłowych wyników dotyczących poszczególnych predyktorów lub predyktorów, które są zbędne w stosunku do innych.
Należy zauważyć, że w stwierdzeniach dotyczących założeń leżących u podstaw analiz regresji, takich jak zwykłe najmniejsze kwadraty , wyrażenie „brak współliniowości” zwykle odnosi się do braku doskonałej współliniowości, która jest dokładną (niestochastyczną) liniową zależnością między predyktorami. W takim przypadku macierz projektu ma mniej niż pełny , a zatem macierz momentu nie może zostać odwrócona . ogólnego modelu najmniejszych .
W każdym razie współliniowość jest cechą macierzy projektu, a nie leżącego u jej podstaw modelu statystycznego .
Współliniowość prowadzi do nieidentyfikowalnych parametrów.
Definicja
Współliniowość to liniowe powiązanie między dwiema zmiennymi objaśniającymi . Dwie zmienne są idealnie współliniowe, jeśli istnieje między nimi ścisły związek liniowy. Na przykład i są doskonale współliniowe, jeśli istnieją parametry i takie, że dla wszystkich obserwacji }
- .
Wielowspółliniowość odnosi się do sytuacji, w której więcej niż dwie zmienne objaśniające w modelu regresji wielokrotnej są silnie liniowo powiązane. Istnieje doskonała wielowspółliniowość, jeśli na przykład, jak w powyższym równaniu, korelacja między dwiema zmiennymi niezależnymi wynosi 1 lub −1. W praktyce doskonała współliniowość w zbiorze danych jest rzadkością. Częściej problem współliniowości pojawia się, gdy istnieje przybliżona zależność liniowa między dwiema lub więcej zmiennymi niezależnymi.
Z matematycznego punktu widzenia zbiór zmiennych jest doskonale współliniowy, jeśli istnieje jedna lub więcej dokładnych zależności liniowych między niektórymi zmiennymi. Oznacza to, że dla wszystkich obserwacji ja
-
()
gdzie są stałymi i jest obserwacją na zmienna objaśniająca.
Aby zbadać jeden problem spowodowany współliniowością, rozważ proces próby uzyskania oszacowań parametrów równania regresji wielokrotnej
- .
Zwykłe oszacowania metodą najmniejszych kwadratów obejmują odwrócenie macierzy , gdzie
jest , gdzie jest obserwacji, . Jeśli istnieje dokładna zależność liniowa (idealna współliniowość) między zmiennymi niezależnymi, to przynajmniej jedna z kolumn liniową kombinacją pozostałych, więc ranga (a zatem ) jest mniejsza niż T , a macierz
Doskonała współliniowość jest dość powszechna podczas pracy z nieprzetworzonymi zbiorami danych, które często zawierają nadmiarowe informacje. Jednak po zidentyfikowaniu i usunięciu redundancji zmienne prawie współliniowe często pozostają z powodu korelacji właściwych badanemu systemowi. W takim przypadku Równanie ( 1 ) można zmodyfikować, aby zawierało składnik błędu: }
- .
tym przypadku nie ma dokładnej liniowej zależności między zmiennymi, ale prawie idealnie wielowspółliniowe, jeśli wariancja jest pewnego zbioru wartości dla 's . W tym przypadku macierz ma odwrotność, ale jest źle uwarunkowana, więc dany algorytm komputerowy może, ale nie musi, być w stanie obliczyć przybliżoną odwrotność; jeśli to możliwe, wynikowa obliczona odwrotność może być bardzo wrażliwa na niewielkie zmiany w danych (z powodu powiększonych skutków błędu zaokrąglenia lub niewielkich zmian w próbkowanych punktach danych), a zatem może być niedokładna lub zależna od próbki.
Wykrycie
Następujące wskaźniki wskazują, że w modelu może występować współliniowość:
- Duże zmiany w oszacowanych współczynnikach regresji występują, gdy zmienna predykcyjna jest dodawana lub usuwana.
- W regresji wielokrotnej występują nieistotne współczynniki regresji dla zmiennych, których to dotyczy, pomimo odrzucenia wspólnej hipotezy, że wszystkie te współczynniki są zerowe (za pomocą testu F ) .
- Jeżeli regresja wielozmienna znajdzie nieistotny współczynnik danego wyjaśniacza, to jednak prosta regresja liniowa zmiennej objaśnianej na tej zmiennej objaśniającej wykazuje, że jej współczynnik jest istotnie różny od zera — taka sytuacja wskazuje na współliniowość w regresji wielowymiarowej.
-
sugerowali inflacji dla _ współczynnikiem determinacji regresji wyjaśniacza na wszystkich innych wyjaśniaczach Tolerancja mniejsza niż 0,20 lub 0,10, VIF 5 lub 10 i więcej lub oba wskazują na problem współliniowości. - Test Farrara-Glaubera : jeśli okaże się, że zmienne są ortogonalne, nie ma współliniowości; jeśli zmienne nie są ortogonalne, występuje przynajmniej pewien stopień współliniowości. C. Robert Wichers argumentował, że test korelacji cząstkowej Farrara-Glaubera jest nieskuteczny, ponieważ dana korelacja cząstkowa może być zgodna z różnymi wzorami współliniowości. Test Farrara-Glaubera był również krytykowany przez innych badaczy.
- Test liczby warunków : Standardową miarą złego kondycjonowania w macierzy jest indeks warunków. Określa to, czy odwrócenie macierzy jest numerycznie niestabilne z liczbami o skończonej precyzji (standardowe komputerowe liczby zmiennoprzecinkowe i podwójne ), wskazując potencjalną wrażliwość obliczonej odwrotności na niewielkie zmiany w oryginalnej macierzy. Numer warunku jest obliczany poprzez znalezienie pierwiastka kwadratowego z maksymalnej wartości własnej podzielonej przez minimalną wartość własną macierzy projektu . Jeśli numer warunku jest większy niż 30, regresja może mieć silną współliniowość; współliniowość istnieje, jeśli dodatkowo dwie lub więcej zmiennych związanych z wysokim numerem warunku mają wyjaśnione wysokie proporcje wariancji. Jedną z zalet tej metody jest to, że pokazuje również, które zmienne powodują problem.
- Zaburzanie danych : współliniowość można wykryć, dodając losowy szum do danych, wielokrotnie powtarzając regresję i obserwując, jak bardzo zmieniają się współczynniki.
- Konstrukcja macierzy korelacji między zmiennymi objaśniającymi daje wskazówki co do prawdopodobieństwa, że dany dwuwiersz zmiennych po prawej stronie tworzy problemy współliniowości. Wartości korelacji (elementy poza przekątną) wynoszące co najmniej 0,4 są czasami interpretowane jako wskazujące na problem współliniowości. Ta procedura jest jednak wysoce problematyczna i nie może być zalecana. Intuicyjnie korelacja opisuje związek dwuwymiarowy, podczas gdy kolinearność jest zjawiskiem wielowymiarowym.
Konsekwencje
Jedną z konsekwencji wysokiego stopnia współliniowości jest to, że nawet jeśli macierz nie uzyskać przybliżonej odwrotności, a jeśli otrzyma jeden, odwrotność może być niedokładna liczbowo. nawet w obecności dokładnej następujące konsekwencje
Zwykła interpretacja współczynnika regresji polega na tym że szacuje on wpływ zmiany o jedną jednostkę zmiennej niezależnej pozostałe zmienne na stałym poziomie. W obecności współliniowości jest to zwykle mniej precyzyjne niż w przypadku, gdyby predyktory były ze sobą nieskorelowane. Jeśli z inną zmienną niezależną danym zbiorze danych, to i w zbiorze. Innymi słowy, zmiany w niezależne od zmian w . Ta korelacja tworzy nieprecyzyjne oszacowanie wpływu niezależnych zmian w .
W pewnym sensie zmienne współliniowe zawierają te same informacje o zmiennej zależnej. Jeśli nominalnie „różne” miary określają ilościowo to samo zjawisko, to są one zbędne. Alternatywnie, jeśli zmiennym nadano różne nazwy i być może stosuje się różne numeryczne skale pomiarowe, ale są one ze sobą silnie skorelowane, wówczas cierpią na nadmiarowość.
Jedną z cech współliniowości jest to, że błędy standardowe współczynników, na które wpływa, są zwykle duże. W takim przypadku sprawdzenie hipotezy, że współczynnik jest równy zeru, może prowadzić do nieodrzucenia fałszywej hipotezy zerowej o braku wpływu wyjaśniacza, co jest błędem II rodzaju .
Innym problemem związanym z wielowspółliniowością jest to, że niewielkie zmiany danych wejściowych mogą prowadzić do dużych zmian w modelu, skutkując nawet zmianami znaku oszacowań parametrów.
Głównym niebezpieczeństwem takiej redundancji danych jest nadmierne dopasowanie w modelach analizy regresji . Najlepsze modele regresji to takie, w których każda zmienna predykcyjna silnie koreluje ze zmienną zależną (wynikiem), ale koreluje ze sobą tylko w minimalnym stopniu. Taki model jest często nazywany „niskoszumowym” i będzie statystycznie odporny (to znaczy będzie rzetelnie przewidywał w wielu próbkach zestawów zmiennych pobranych z tej samej populacji statystycznej).
Tak długo, jak podstawowa specyfikacja jest poprawna, współliniowość nie wpływa na wyniki; po prostu generuje duże błędy standardowe w powiązanych zmiennych niezależnych. Co ważniejsze, typowym zastosowaniem regresji jest pobranie współczynników z modelu, a następnie zastosowanie ich do innych danych. Ponieważ współliniowość powoduje niedokładne oszacowania wartości współczynników, wynikające z tego przewidywania poza próbą również będą nieprecyzyjne. A jeśli wzór współliniowości w nowych danych różni się od tego w danych, które zostały dopasowane, taka ekstrapolacja może wprowadzić duże błędy w przewidywaniach.
Jeśli jednak podstawowa specyfikacja jest mniej niż kompletna i poprawna, wieloliniowość wzmacnia błędy błędnej specyfikacji. Chociaż nie jest to często rozpoznawane w tekstach metod, jest to powszechny problem w naukach społecznych, gdzie pełna, poprawna specyfikacja modelu regresji OLS jest rzadko znana, a przynajmniej niektóre istotne zmienne będą nieobserwowalne. W rezultacie oszacowane współczynniki skorelowanych zmiennych niezależnych w regresji OLS będą obciążone współliniowością. Gdy korelacja zbliża się do jedności, oszacowania współczynników będą błędnie dążyć do nieskończonych wielkości w przeciwnych kierunkach, nawet jeśli rzeczywiste efekty zmiennych są małe i mają ten sam znak.
Środki zaradcze
- Unikaj fałszywej pułapki zmiennych ; uwzględnienie zmiennej fikcyjnej dla każdej kategorii (np. lata, jesieni, zimy i wiosny) oraz uwzględnienie stałego składnika w regresji razem gwarantują doskonałą współliniowość.
- Użyj niezależnych podzbiorów danych do oszacowania, a następnie zastosuj te oszacowania do całego zestawu danych. Może to skutkować nieco większą wariancją niż w przypadku podzbiorów, ale oczekiwane wartości współczynników powinny być takie same. Obserwuj, jak bardzo zmieniają się wartości współczynników.
- Pozostaw model bez zmian, pomimo współliniowości. Obecność współliniowości nie wpływa na efektywność ekstrapolacji dopasowanego modelu na nowe dane, pod warunkiem, że zmienne predykcyjne mają ten sam wzorzec współliniowości w nowych danych, jak w danych, na których oparty jest model regresji.
- Usuń jedną ze zmiennych. Zmienną objaśniającą można usunąć, aby uzyskać model o znaczących współczynnikach. Powoduje to jednak utratę informacji. Pominięcie istotnej zmiennej skutkuje obciążonymi szacunkami współczynników dla pozostałych zmiennych objaśniających, które są skorelowane z pominiętą zmienną.
- Uzyskaj więcej danych, jeśli to możliwe. Jest to preferowane rozwiązanie. Więcej danych może dać dokładniejsze oszacowania parametrów (z niższymi błędami standardowymi), jak widać ze wzoru na współczynnik inflacji wariancji dla wariancji oszacowania współczynnika regresji pod względem wielkości próby i stopnia współliniowości.
- Średnio wyśrodkuj zmienne predykcyjne. Generowanie warunków wielomianowych (tj. dla itp. interakcji (tj . Displaystyle , itp.) może powodować pewną współliniowość, jeśli dana zmienna ma ograniczony zakres (np. [2,4]). Średnie wyśrodkowanie wyeliminuje ten szczególny rodzaj współliniowości. Jednak ogólnie nie ma to żadnego wpływu. Może być przydatny w przezwyciężaniu problemów wynikających z zaokrąglania i innych kroków obliczeniowych, jeśli nie jest używany starannie zaprojektowany program komputerowy.
- Standaryzuj zmienne niezależne. Może to pomóc zredukować fałszywe sygnalizowanie wskaźnika stanu powyżej 30.
- Sugerowano również, że przy użyciu wartości Shapleya , narzędzia teorii gier , model mógłby uwzględniać efekty współliniowości. Wartość Shapleya przypisuje wartość każdemu predyktorowi i ocenia wszystkie możliwe kombinacje ważności.
- Użyj regularyzacji Tichonowa (znanej również jako regresja grzbietowa ).
- Użyj regresji głównych składowych .
- Użyj regresji częściowych najmniejszych kwadratów .
- Jeżeli skorelowane wyjaśniacze są różnymi opóźnionymi wartościami tego samego podstawowego wyjaśniacza, wówczas można zastosować technikę rozproszonego opóźnienia , narzucając ogólną strukturę względnym wartościom współczynników, które mają zostać oszacowane.
- Traktuj wysoce liniowo powiązane zmienne jako grupę i badaj ich efekty grupowe (patrz dyskusja poniżej) zamiast ich efektów indywidualnych. Na poziomie grupy współliniowość nie stanowi problemu, więc nie są potrzebne żadne środki zaradcze.
Wielowspółliniowość i efekty grupowe
Silnie skorelowane zmienne predykcyjne pojawiają się naturalnie jako grupa. Ich zbiorowy wpływ na zmienną odpowiedzi można zmierzyć za pomocą efektów grupowych. Dla grupy zmiennych predykcyjnych efekt grupowy definiuje się jako liniowa kombinacja ich parametrów:
gdzie jest wektorem wag spełniającym . Ma interpretację jako oczekiwaną zmianę zmiennej odpowiedzi, w grupie zmiana o kwotę , odpowiednio, w tym samym czasie ze zmiennymi nienależącymi do grupy utrzymywanej jako stała. Efekty grupowe uogólniają efekty indywidualne w ten sposób, że (1) jeśli , wtedy efekt grupowy redukuje się do efektu indywidualnego i (2) jeśli i dla , wtedy efekt grupowy również redukuje się do efektu indywidualnego. Mówi się, że efekt grupowy jest znaczący, jeśli podstawowe jednoczesne zmiany zmiennych przez wektor są prawdopodobne. Kiedy jest grupą silnie skorelowanych zmiennych, nie ma znaczenia jako efekt grupowy, ponieważ jego podstawowe jednoczesne zmiany są reprezentowane przez nie są prawdopodobne. Dzieje się tak, ponieważ ze względu na ich silne korelacje jest mało prawdopodobne, aby inne zmienne w grupie pozostały niezmienione, gdy wzrasta o jedną jednostkę. Obserwacja ta dotyczy również parametrów innych zmiennych w grupie.
efekty grupowe, które nie są znaczące, takie jak „ dokładnie oszacowane za pomocą regresji metodą najmniejszych kwadratów. Z drugiej strony, znaczące efekty grupowe można dokładnie oszacować za pomocą regresji najmniejszych kwadratów. Pokazuje to, że silnie skorelowane zmienne predykcyjne powinny być traktowane jako grupa, a współliniowość nie stanowi problemu na poziomie grupy. Aby zapoznać się z omówieniem sposobu identyfikowania znaczących efektów grupowych, zobacz Regresja liniowa .
Występowanie
Analiza przeżycia
Współliniowość może stanowić poważny problem w analizie przetrwania . Problem polega na tym, że zmienne towarzyszące zmieniające się w czasie mogą zmieniać swoją wartość na osi czasu badania. Zaleca się specjalną procedurę oceny wpływu współliniowości na wyniki.
Stopy procentowe dla różnych terminów zapadalności
W różnych sytuacjach można postawić hipotezę, że wiele stóp procentowych o różnych terminach do terminu zapadalności wpływa na niektóre decyzje gospodarcze, takie jak ilość pieniędzy lub innych aktywów finansowych do utrzymania, lub kwota wydatków na inwestycje trwałe . przypadku, włączając te różne stopy procentowe, generalnie stworzy poważny problem współliniowości, ponieważ stopy procentowe mają tendencję do poruszania się razem. Jeśli każda ze stóp procentowych ma swój odrębny wpływ na zmienną zależną, oddzielenie ich skutków może być niezwykle trudne.
Wspólne czynniki
Kombinacja wielowspółliniowości i błędnej specyfikacji wzmacniająca błąd może wystąpić, gdy badania próbują wydobyć wpływ dwóch zmiennych niezależnych, które (1) są połączone istotnym wspólnym czynnikiem i (2) zawierają nieobserwowalne, ale istotne składniki (nie tylko błędne terminy) które są ortogonalne do wspólnego czynnika i które wpływają na zmienną zależną niezależnie od jakiegokolwiek efektu wspólnego czynnika.
Na przykład badania czasami obejmują tę samą zmienną dwukrotnie w regresji, mierzonej w dwóch różnych punktach w czasie. Niezmienny w czasie czynnik wspólny dla obu zmiennych powoduje współliniowość, podczas gdy nieobserwowalny charakter wspólnego czynnika lub specyficznych dla czasu składowych ortogonalnych powoduje błędną specyfikację. Ta sama struktura może mieć zastosowanie do innych par zmiennych rzeczowych o wspólnym czynniku, takim jak dwa rodzaje wiedzy, dane wywiadowcze, konflikty lub miary finansowe (takie jak stopy procentowe wspomniane powyżej).
Dwie główne implikacje obecności takich wspólnych czynników wśród zmiennych niezależnych analizy regresji są takie, że gdy korelacja zmiennych niezależnych zbliża się do jedności z powodu znacznego wspólnego czynnika, (1) ich oszacowania współczynników będą błędnie dążyć do nieskończonych wielkości w przeciwnych kierunki, nawet jeśli rzeczywiste efekty zmiennych są małe i tego samego znaku, oraz (2) wielkości obciążonych współczynników będą wzmacniane w podobnym tempie do błędów standardowych, a zatem statystyki t mogą pozostać sztucznie duże. Prawdopodobnym rezultatem są sprzeczne z intuicją błędy typu I , a nie błędy typu II zwykle związane z wieloliniowością.
Aby przekonać czytelników, że ta forma współliniowości nie zafałszowuje wyników, badania nie powinny po prostu „odrzucić” jednej ze zmiennych współliniowych. Powinni raczej przedstawić oddzielne wyniki regresji z każdą ze zmiennych współliniowych w izolacji, a następnie regresję zawierającą obie zmienne. Spójne znaki i wielkości współczynników w tych specyfikacjach stanowią mocny dowód na to, że współliniowość wspólnego czynnika nie wpływa na wyniki.
Rozszerzenie
Koncepcja kolinearności bocznej rozszerza tradycyjny pogląd na współliniowość, obejmując również współliniowość między zmiennymi objaśniającymi i kryterialnymi (tj. wyjaśnianymi), w tym sensie, że mogą one mierzyć prawie to samo co inne.
Zobacz też
Dalsza lektura
- Belsley, David A.; Kuh, Edwin ; Welsch, Roy E. (1980). Diagnostyka regresji: identyfikacja wpływowych danych i źródeł współliniowości . Nowy Jork: Wiley. ISBN 978-0-471-05856-4 .
- Goldberger, Arthur S. (1991). „Wielokliniowość” . Kurs ekonometrii . Cambridge: Harvard University Press. s. 245–53. ISBN 9780674175440 .
- Hill, R. Carter; Adkins, Lee C. (2001). „współliniowość”. W Baltagi, Badi H. (red.). Towarzysz ekonometrii teoretycznej . Blackwell. s. 256–278. doi : 10.1002/9780470996249.ch13 . ISBN 978-0-631-21254-6 .
- Johnston, John (1972). Metody ekonometryczne (wyd. Drugie). Nowy Jork: McGraw-Hill. s. 159 –168.
- Kalnins, Arturs (2022). „Kiedy współliniowość obciąża współczynniki i powoduje błędy typu 1? Pojednanie Lindnera, Pucka i Verbeke (2020) z Kalninsem (2018)”. Journal of International Business Studies . doi : 10.1057/s41267-022-00531-9 .
- Kmenta, Jan (1986). Elementy ekonometrii (wyd. Drugie). Nowy Jork: Macmillan. s. 430–442 . ISBN 978-0-02-365070-3 .
- Maddala, GS ; Lahiri, Kajal (2009). Wprowadzenie do ekonometrii (wyd. Czwarte). Chichester: Wiley. s. 279–312. ISBN 978-0-470-01512-4 .
- Tomaszek, Fabian; Hendrix, Piotr; Baayen, R. Harald (2018). „Strategie rozwiązywania kolinearności w wielowymiarowych danych językowych” . Dziennik fonetyki . 71 : 249–267. doi : 10.1016/j.wocn.2018.09.004 .
Linki zewnętrzne
- Thoma, Mark (2 marca 2011). „Wykład z ekonometrii (temat: współliniowość)” . Uniwersytet Oregonu . Zarchiwizowane od oryginału w dniu 12 grudnia 2021 r. – przez YouTube .
- Najwcześniejsze zastosowania: Wpis dotyczący współliniowości zawiera pewne informacje historyczne.