Dowody z udziałem zwykłych najmniejszych kwadratów

Celem tej strony jest dostarczenie materiałów uzupełniających do zwykłego artykułu metodą najmniejszych kwadratów , zmniejszając obciążenie artykułu głównego matematyką i poprawiając jego dostępność, przy jednoczesnym zachowaniu kompletności ekspozycji.

Wyprowadzanie równań normalnych

Zdefiniuj , ma być

Następnie cel

Biorąc pod uwagę, że S jest wypukła, jest minimalizowana , gdy jej wektor gradientu wynosi zero (Wynika to z definicji: jeśli wektor gradientu nie jest równy zeru, istnieje kierunek, w którym możemy się poruszać, aby go jeszcze bardziej zminimalizować – patrz maksima i minima ). elementy wektora gradientu są pochodnymi cząstkowymi S względem parametrów:

Pochodne są

Podstawienie wyrażeń na reszty i pochodne do równań gradientowych daje

Zatem jeśli minimalizuje S , mamy

Po przegrupowaniu otrzymujemy równania normalne :

Równania normalne są zapisywane w notacji macierzowej jako

(gdzie X T jest transpozycją macierzy X ).

Rozwiązanie równań normalnych daje wektor parametrów

Wyprowadzenie bezpośrednio w kategoriach macierzy

Równania normalne można wyprowadzić bezpośrednio z macierzowej reprezentacji problemu w następujący sposób. Celem jest zminimalizowanie

Tutaj kolumn ), więc jest skalarem i równym własnej transpozycji, stąd i ilość do zminimalizowania staje się

Zróżnicowanie tego w odniesieniu do i zrównanie do zera w celu spełnienia warunków pierwszego rzędu daje

co jest równoważne podanym powyżej równaniom normalnym. Wystarczającym warunkiem warunków drugiego rzędu dla minimum jest to, że mają pełną rangę kolumny, w takim przypadku jest dodatnio określony .

Wyprowadzenie bez rachunku różniczkowego

Gdy dodatnio określony, wzór na minimalizację wartości można wyprowadzić bez użycia pochodnych. Ilość

można zapisać jako

gdzie zależy tylko od i ⟨ jest iloczynem wewnętrznym zdefiniowanym przez

Wynika z tego, że równa się

i dlatego zminimalizowane dokładnie kiedy

Uogólnienie dla złożonych równań

biorąc macierzy mogą być złożone Używając hermitowskiej prostej transpozycji, można znaleźć wektor który minimalizuje , podobnie jak w przypadku rzeczywistej macierzy. Aby otrzymać równania normalne, postępujemy podobnie jak w poprzednich wyprowadzeniach:

gdzie oznacza transpozycję hermitowską.

Powinniśmy teraz wziąć pochodne odniesieniu do każdego ze współczynników , rzeczywiste i części urojone, aby poradzić sobie z czynnikami sprzężonymi w powyższym wyrażeniu. Dla mamy

a pochodne zamieniają się w

Po przepisaniu w formie sumowania i wyraźnym zapisaniu obliczyć obie pochodne cząstkowe z wynikiem:

co po dodaniu go do siebie i porównaniu do zera (warunek minimalizacji dla ) daje

W postaci macierzowej:

Estymator najmniejszych kwadratów dla β

Używając notacji macierzowej, suma kwadratów reszt jest dana przez

Ponieważ jest to wyrażenie kwadratowe, wektor, który daje globalne minimum, można znaleźć za pomocą rachunku macierzowego , różniczkując względem wektora (przy użyciu układu mianownika) i ustawiając go na zero:

Przy założeniu, że macierz X ma pełny rząd kolumn, a zatem X T X jest odwracalna, a estymator najmniejszych kwadratów dla β jest określony wzorem

Bezstronność i wariancja

Podstaw y = + ε do wzoru na a następnie użyj prawa całkowitego oczekiwania : β ^ {\ Displaystyle {\ widehat {\ beta}}}

gdzie E[ ε | X ] = 0 według założeń modelu. Ponieważ oczekiwana wartość równa parametrowi, który szacuje to nieobciążony estymator β .

Dla wariancji niech macierz kowariancji będzie mi (gdzie macierz tożsamości znaną stałą Następnie,

wykorzystaliśmy fakt, że tylko afiniczna transformacja ε macierz .

Dla prostego modelu regresji liniowej, gdzie ( to punkt przecięcia z osią y i to nachylenie), otrzymuje się

Oczekiwana wartość i stronniczość

Najpierw wstawimy wyrażenie dla y do estymatora i wykorzystamy fakt, że X'M = MX = 0 (macierz M rzutuje na przestrzeń prostopadłą do X ):

Teraz możemy rozpoznać ε jako macierz 1×1, taka macierz jest równa własnemu śladowi . Jest to przydatne, ponieważ dzięki właściwościom operatora śladu tr ( AB ) = tr ( BA ) możemy go użyć do oddzielenia zakłócenia ε od ​​macierzy M , która jest funkcją regresorów X :

Korzystając z prawa iterowanych oczekiwań, można to zapisać jako

Przypomnijmy, że M = I P , gdzie P jest rzutem na przestrzeń liniową rozpiętą przez kolumny macierzy X . Z własności macierzy projekcji wynika , że ​​ma ona wartości własne p = rank( X ) równe 1, a wszystkie inne wartości własne równe 0. Ślad macierzy jest równy sumie jej wartości charakterystycznych, stąd tr( P ) = p i tr( M ) = n - p . Dlatego,

Ponieważ oczekiwana wartość nie jest równa parametrowi, który szacuje, to } jest obciążonym estymatorem σ . Uwaga w dalszej części „Maksymalne prawdopodobieństwo” pokazujemy, że przy dodatkowym założeniu, że błędy mają rozkład normalny, estymator jest proporcjonalny do rozkładu chi-kwadrat o n p stopniach swobody, z którego natychmiast wynikałby wzór na wartość oczekiwaną. Jednak wynik, który pokazaliśmy w tej sekcji, jest ważny niezależnie od rozkładu błędów, a zatem sam w sobie ma znaczenie.

Spójność i asymptotyczna normalność

Estymator można zapisać jako

Możemy użyć prawa wielkich liczb, aby to ustalić

Za pomocą twierdzenia Słuckiego i twierdzenia o ciągłym mapowaniu wyniki te można połączyć, aby ustalić spójność estymatora: :

Mówi nam o tym centralne twierdzenie graniczne

gdzie

Stosując ponownie twierdzenie Słuckiego, będziemy mieli

Podejście największego prawdopodobieństwa

Oszacowanie największej wiarygodności to ogólna technika szacowania nieznanych parametrów w modelu statystycznym poprzez konstruowanie funkcji logarytmicznej wiarygodności odpowiadającej łącznemu rozkładowi danych, a następnie maksymalizowanie tej funkcji dla wszystkich możliwych wartości parametrów. Aby zastosować tę metodę, musimy przyjąć założenie o rozkładzie y przy danym X, aby można było skonstruować funkcję logarytmu wiarygodności. Połączenie oszacowania największej wiarygodności z OLS powstaje, gdy ten rozkład jest modelowany jako wielowymiarowa normalna .

W szczególności załóżmy, że błędy ε mają wielowymiarowy rozkład normalny ze średnią 0 i macierzą wariancji σ 2 I . Wtedy rozkład y warunkowo na X wynosi

a funkcja logarytmu wiarygodności danych będzie

Różniczkując to wyrażenie względem β i σ 2 znajdziemy oszacowania ML tych parametrów:

Możemy sprawdzić, czy rzeczywiście jest to maksimum, patrząc na macierz Hessego funkcji logarytmu wiarygodności.

Rozkład próby skończonej

założyliśmy, że rozkład składników błędu jest znany jako normalny, możliwe staje się wyprowadzenie jawnych wyrażeń dla i :

tak, że przez właściwości transformacji afinicznej wielowymiarowego rozkładu normalnego

Podobnie rozkład wynika z

gdzie jest symetryczną macierzą projekcji na podprzestrzeń prostopadłą do X , a zatem MX = X M = 0. Argumentowaliśmy wcześniej , że ta macierz ma rangę n p , a więc przez właściwości rozkładu chi-kwadrat ,

estymatory okazują się niezależne warunkowe dla X ) } , co jest fundamentalne dla konstrukcji klasycznych testów t i F. : estymator reprezentuje współczynniki rozkładu na podstawie kolumn X , jako takie jest funkcją . Jednocześnie estymator normą wektora przez n , a zatem ten jest funkcją . Teraz zmienne losowe ( , ) są łącznie normalne jako transformacja liniowa ε , a także są nieskorelowane, ponieważ PM = 0. Z własności wielowymiarowego rozkładu normalnego wynika, że ​​Pε i są niezależne, a zatem estymatory i również będą niezależne.

Wyprowadzanie prostych estymatorów regresji liniowej

Szukamy i , które minimalizują sumę kwadratów błędów (SSE):

minimum, weź pochodne cząstkowe względem i β

względem , zastąp poprzedni wynik

Teraz weź pochodną względem :

I na koniec zastąp aby określić