Odchylenie pominiętej zmiennej

W statystyce błąd pominiętej zmiennej ( OVB ) występuje, gdy model statystyczny pomija jedną lub więcej istotnych zmiennych . Obciążenie powoduje, że model przypisuje efekt brakujących zmiennych tym, które zostały uwzględnione.

Mówiąc dokładniej, OVB to błąd systematyczny , który pojawia się w oszacowaniach parametrów w analizie regresji , gdy przyjęta specyfikacja jest błędna, ponieważ pomija zmienną niezależną, która jest wyznacznikiem zmiennej zależnej i jest skorelowana z jedną lub kilkoma uwzględnionymi niezależnymi zmienne.

W regresji liniowej

Intuicja

Załóżmy, że prawdziwy związek przyczynowo-skutkowy jest określony przez:

z parametrami a, b, c , zmienną zależną y , zmiennymi niezależnymi x i z oraz wyrazem błędu u . Chcemy poznać wpływ x na y (to znaczy, chcemy uzyskać oszacowanie b ).

regresji liniowej wystąpił błąd odchylenia pominiętych zmiennych, muszą być spełnione dwa warunki :

  • pominięta zmienna musi być wyznacznikiem zmiennej zależnej (tj. jej prawdziwy współczynnik regresji nie może wynosić zero); I
  • pominięta zmienna musi być skorelowana ze zmienną niezależną określoną w regresji (tj. cov( z , x ) nie może być równe zeru).

Załóżmy, że pominiemy z regresji i załóżmy, że relacja między x i z jest dana przez

z parametrami d , f i wyrazem błędu e . Podstawienie drugiego równania na pierwsze daje

Jeśli regresja y jest przeprowadzana tylko na x , to ostatnie równanie jest tym, co jest szacowane, a współczynnik regresji na x jest w rzeczywistości estymatą ( b + cf ), dającą nie tylko oszacowanie pożądanego bezpośredniego wpływu x na y (czyli b ), ale raczej jego sumy ze skutkiem pośrednim (efekt f z x na z razy efekt c z z na y ). Zatem pomijając zmienną z w regresji, oszacowaliśmy całkowitą pochodną y względem x , a nie jej pochodną cząstkową względem x . Różnią się one, jeśli zarówno c, jak i f są niezerowe.

Kierunek i zakres odchylenia są zawarte w cf , ponieważ poszukiwany efekt to b , ale regresja szacuje b+cf . Zakres odchylenia jest wartością bezwzględną cf , a kierunek odchylenia jest skierowany w górę (w kierunku bardziej dodatniej lub mniej ujemnej wartości), jeśli cf > 0 (jeśli kierunek korelacji między y i z jest taki sam jak między x i z ), aw przeciwnym razie jest w dół.

Szczegółowa analiza

Jako przykład rozważ liniowy model formy

Gdzie

  • x i jest wektorem wierszowym 1 × p wartości p zmiennych niezależnych obserwowanych w czasie i lub dla i- tego uczestnika badania;
  • β jest wektorem kolumnowym p × 1 parametrów nieobserwowalnych (współczynników odpowiedzi zmiennej zależnej na każdą z p zmiennych niezależnych w x i ), które mają zostać oszacowane;
  • z i jest skalarem i jest wartością innej zmiennej niezależnej obserwowanej w czasie i lub dla i- tego uczestnika badania;
  • δ jest skalarem i jest nieobserwowalnym parametrem (współczynnikiem odpowiedzi zmiennej zależnej na z i ) do oszacowania;
  • u i to nieobserwowalny składnik błędu występujący w czasie i lub dla i -tego uczestnika badania; jest to nieobserwowana realizacja zmiennej losowej o wartości oczekiwanej 0 (warunkowo na x i oraz z i );
  • y i jest obserwacją zmiennej zależnej w czasie i lub dla i- tego uczestnika badania.

Zbieramy obserwacje wszystkich zmiennych z indeksem dolnym i = 1, ..., n i układamy je jedna pod drugą, aby otrzymać macierz X i wektory Y , Z i U :

I

Jeżeli z regresji pominie się zmienną niezależną z , wówczas oszacowane wartości parametrów odpowiedzi innych zmiennych niezależnych zostaną podane za pomocą zwykłego obliczenia najmniejszych kwadratów ,

(gdzie notacja „pierwsza” oznacza transpozycję macierzy , a indeks górny -1 to inwersja macierzy ).

Zastępując Y na podstawie przyjętego modelu liniowego,

Biorąc pod uwagę oczekiwania, wkład ostatecznego terminu wynosi zero; wynika to z założenia, że ​​U jest nieskorelowane z regresorami X . Upraszczając pozostałe terminy:

Drugi człon po znaku równości to w tym przypadku odchylenie pominiętej zmiennej, które jest niezerowe, jeśli pominięta zmienna z jest skorelowana z dowolną z uwzględnionych zmiennych w macierzy X (to znaczy, jeśli X′Z nie jest równe wektor zer). Zauważ, że odchylenie jest równe ważonej części zi , która jest „wyjaśniona” przez xi .

Efekt w zwykłych najmniejszych kwadratach

Gaussa -Markowa stwierdza, że ​​modele regresji, które spełniają założenia klasycznego modelu regresji liniowej, dostarczają najbardziej wydajnych , liniowych i nieobciążonych estymatorów. W zwykłych najmniejszych kwadratach odpowiednim założeniem klasycznego modelu regresji liniowej jest to, że składnik błędu nie jest skorelowany z regresorami.

Obecność błędu pominiętej zmiennej narusza to konkretne założenie. Naruszenie powoduje, że estymator OLS jest obciążony i niespójny . Kierunek obciążenia zależy od estymatorów oraz kowariancji między regresorami a pominiętymi zmiennymi. Dodatnia kowariancja pominiętej zmiennej zarówno z regresorem, jak i zmienną zależną spowoduje, że oszacowanie OLS współczynnika uwzględnionego regresora będzie większe niż prawdziwa wartość tego współczynnika. Efekt ten można zaobserwować, przyjmując wartość oczekiwaną parametru, jak pokazano w poprzedniej sekcji.

Zobacz też

  • Barreto; Howlanda (2006). „Pominięte zmienne odchylenie” . Ekonometria wprowadzająca: korzystanie z symulacji Monte Carlo w programie Microsoft Excel . Wydawnictwo Uniwersytetu Cambridge.
  • Clarke, Kevin A. (2005). „Mroczne widmo: pominięte zmienne nastawienie w badaniach ekonometrycznych”. Zarządzanie konfliktami i nauka o pokoju . 22 (4): 341–352. doi : 10.1080/07388940500339183 .
  • Greene, WH (1993). Analiza ekonometryczna (wyd. 2). Macmillan. s. 245–246.
  •   Wooldridge, Jeffrey M. (2009). „Pominięte zmienne odchylenie: prosty przypadek”. Ekonometria wprowadzająca: nowoczesne podejście . Mason, OH: Nauka Cengage. s. 89–93. ISBN 9780324660548 .