Celem tej strony jest dostarczenie materiałów uzupełniających do zwykłego artykułu metodą najmniejszych kwadratów , zmniejszając obciążenie artykułu głównego matematyką i poprawiając jego dostępność, przy jednoczesnym zachowaniu kompletności ekspozycji.
Wyprowadzanie równań normalnych
Zdefiniuj , ma być
Następnie cel
Biorąc pod uwagę, że S jest wypukła, jest minimalizowana , gdy jej wektor gradientu wynosi zero (Wynika to z definicji: jeśli wektor gradientu nie jest równy zeru, istnieje kierunek, w którym możemy się poruszać, aby go jeszcze bardziej zminimalizować – patrz maksima i minima ). elementy wektora gradientu są pochodnymi cząstkowymi S względem parametrów:
Pochodne są
Podstawienie wyrażeń na reszty i pochodne do równań gradientowych daje
Zatem jeśli minimalizuje S , mamy
Po przegrupowaniu otrzymujemy równania normalne :
Równania normalne są zapisywane w notacji macierzowej jako
-
(gdzie X T jest transpozycją macierzy X ).
Rozwiązanie równań normalnych daje wektor parametrów
Wyprowadzenie bezpośrednio w kategoriach macierzy
Równania normalne można wyprowadzić bezpośrednio z macierzowej reprezentacji problemu w następujący sposób. Celem jest zminimalizowanie
Tutaj kolumn ), więc jest skalarem i równym własnej transpozycji, stąd i ilość do zminimalizowania staje się
Zróżnicowanie tego w odniesieniu do i zrównanie do zera w celu spełnienia warunków pierwszego rzędu daje
co jest równoważne podanym powyżej równaniom normalnym. Wystarczającym warunkiem warunków drugiego rzędu dla minimum jest to, że mają pełną rangę kolumny, w takim przypadku jest dodatnio określony .
Wyprowadzenie bez rachunku różniczkowego
Gdy dodatnio określony, wzór na minimalizację wartości można wyprowadzić bez użycia pochodnych. Ilość
można zapisać jako
gdzie zależy tylko od i ⟨ jest iloczynem wewnętrznym zdefiniowanym przez
Wynika z tego, że równa się
i dlatego zminimalizowane dokładnie kiedy
Uogólnienie dla złożonych równań
biorąc macierzy mogą być złożone Używając hermitowskiej prostej transpozycji, można znaleźć wektor który minimalizuje , podobnie jak w przypadku rzeczywistej macierzy. Aby otrzymać równania normalne, postępujemy podobnie jak w poprzednich wyprowadzeniach:
gdzie oznacza transpozycję hermitowską.
Powinniśmy teraz wziąć pochodne odniesieniu do każdego ze współczynników , rzeczywiste i części urojone, aby poradzić sobie z czynnikami sprzężonymi w powyższym wyrażeniu. Dla mamy
a pochodne zamieniają się w
Po przepisaniu w formie sumowania i wyraźnym zapisaniu obliczyć obie pochodne cząstkowe z wynikiem:
co po dodaniu go do siebie i porównaniu do zera (warunek minimalizacji dla ) daje
W postaci macierzowej:
Estymator najmniejszych kwadratów dla β
Używając notacji macierzowej, suma kwadratów reszt jest dana przez
Ponieważ jest to wyrażenie kwadratowe, wektor, który daje globalne minimum, można znaleźć za pomocą rachunku macierzowego , różniczkując względem wektora (przy użyciu układu mianownika) i ustawiając go na zero:
Przy założeniu, że macierz X ma pełny rząd kolumn, a zatem X T X jest odwracalna, a estymator najmniejszych kwadratów dla β jest określony wzorem
Bezstronność i wariancja
Podstaw y = Xβ + ε do wzoru na a następnie użyj prawa całkowitego oczekiwania : β ^ {\ Displaystyle {\ widehat {\ beta}}}
gdzie E[ ε | X ] = 0 według założeń modelu. Ponieważ oczekiwana wartość równa parametrowi, który szacuje to nieobciążony estymator β .
Dla wariancji niech macierz kowariancji będzie mi (gdzie macierz tożsamości znaną stałą Następnie,
wykorzystaliśmy fakt, że tylko afiniczna transformacja ε macierz .
Dla prostego modelu regresji liniowej, gdzie ( to punkt przecięcia z osią y i to nachylenie), otrzymuje się
Oczekiwana wartość i stronniczość
Najpierw wstawimy wyrażenie dla y do estymatora i wykorzystamy fakt, że X'M = MX = 0 (macierz M rzutuje na przestrzeń prostopadłą do X ):
Teraz możemy rozpoznać ε ′ Mε jako macierz 1×1, taka macierz jest równa własnemu śladowi . Jest to przydatne, ponieważ dzięki właściwościom operatora śladu tr ( AB ) = tr ( BA ) możemy go użyć do oddzielenia zakłócenia ε od macierzy M , która jest funkcją regresorów X :
Korzystając z prawa iterowanych oczekiwań, można to zapisać jako
Przypomnijmy, że M = I − P , gdzie P jest rzutem na przestrzeń liniową rozpiętą przez kolumny macierzy X . Z własności macierzy projekcji wynika , że ma ona wartości własne p = rank( X ) równe 1, a wszystkie inne wartości własne równe 0. Ślad macierzy jest równy sumie jej wartości charakterystycznych, stąd tr( P ) = p i tr( M ) = n - p . Dlatego,
Ponieważ oczekiwana wartość nie jest równa parametrowi, który szacuje, to } jest obciążonym estymatorem σ . Uwaga w dalszej części „Maksymalne prawdopodobieństwo” pokazujemy, że przy dodatkowym założeniu, że błędy mają rozkład normalny, estymator jest proporcjonalny do rozkładu chi-kwadrat o n – p stopniach swobody, z którego natychmiast wynikałby wzór na wartość oczekiwaną. Jednak wynik, który pokazaliśmy w tej sekcji, jest ważny niezależnie od rozkładu błędów, a zatem sam w sobie ma znaczenie.
Spójność i asymptotyczna normalność
Estymator można zapisać jako
Możemy użyć prawa wielkich liczb, aby to ustalić
Za pomocą twierdzenia Słuckiego i twierdzenia o ciągłym mapowaniu wyniki te można połączyć, aby ustalić spójność estymatora: :
Mówi nam o tym centralne twierdzenie graniczne
-
gdzie
Stosując ponownie twierdzenie Słuckiego, będziemy mieli
Podejście największego prawdopodobieństwa
Oszacowanie największej wiarygodności to ogólna technika szacowania nieznanych parametrów w modelu statystycznym poprzez konstruowanie funkcji logarytmicznej wiarygodności odpowiadającej łącznemu rozkładowi danych, a następnie maksymalizowanie tej funkcji dla wszystkich możliwych wartości parametrów. Aby zastosować tę metodę, musimy przyjąć założenie o rozkładzie y przy danym X, aby można było skonstruować funkcję logarytmu wiarygodności. Połączenie oszacowania największej wiarygodności z OLS powstaje, gdy ten rozkład jest modelowany jako wielowymiarowa normalna .
W szczególności załóżmy, że błędy ε mają wielowymiarowy rozkład normalny ze średnią 0 i macierzą wariancji σ 2 I . Wtedy rozkład y warunkowo na X wynosi
a funkcja logarytmu wiarygodności danych będzie
Różniczkując to wyrażenie względem β i σ 2 znajdziemy oszacowania ML tych parametrów:
Możemy sprawdzić, czy rzeczywiście jest to maksimum, patrząc na macierz Hessego funkcji logarytmu wiarygodności.
Rozkład próby skończonej
założyliśmy, że rozkład składników błędu jest znany jako normalny, możliwe staje się wyprowadzenie jawnych wyrażeń dla i :
tak, że przez właściwości transformacji afinicznej wielowymiarowego rozkładu normalnego
Podobnie rozkład wynika z
gdzie jest symetryczną macierzą projekcji na podprzestrzeń prostopadłą do X , a zatem MX = X ′ M = 0. Argumentowaliśmy wcześniej , że ta macierz ma rangę n – p , a więc przez właściwości rozkładu chi-kwadrat ,
estymatory okazują się niezależne warunkowe dla X ) } , co jest fundamentalne dla konstrukcji klasycznych testów t i F. : estymator reprezentuje współczynniki rozkładu na podstawie kolumn X , jako takie jest funkcją Pε . Jednocześnie estymator normą wektora Mε przez n , a zatem ten jest funkcją . Teraz zmienne losowe ( Pε , Mε ) są łącznie normalne jako transformacja liniowa ε , a także są nieskorelowane, ponieważ PM = 0. Z własności wielowymiarowego rozkładu normalnego wynika, że Pε i Mε są niezależne, a zatem estymatory i również będą niezależne.
Wyprowadzanie prostych estymatorów regresji liniowej
Szukamy i , które minimalizują sumę kwadratów błędów (SSE):
minimum, weź pochodne cząstkowe względem i β
względem , zastąp poprzedni wynik
Teraz weź pochodną względem :
I na koniec zastąp aby określić