Dowody z udziałem zwykłych najmniejszych kwadratów

Celem tej strony jest dostarczenie materiałów uzupełniających do zwykłego artykułu metodą najmniejszych kwadratów , zmniejszając obciążenie artykułu głównego matematyką i poprawiając jego dostępność, przy jednoczesnym zachowaniu kompletności ekspozycji.

Wyprowadzanie równań normalnych

Zdefiniuj , $reszta$ ma być

{\ Displaystyle r_ {i} = y_ {i} - \ suma _ {j = 1} ^ {n} X_ {ij} \ beta _ {j}.}

Następnie cel $przepisać$

{\ Displaystyle S = \ suma _ {i = 1} ^ {m} r_ {i} ^ {2}.}

Biorąc pod uwagę, że S jest wypukła, jest minimalizowana , gdy jej wektor gradientu wynosi zero (Wynika to z definicji: jeśli wektor gradientu nie jest równy zeru, istnieje kierunek, w którym możemy się poruszać, aby go jeszcze bardziej zminimalizować – patrz maksima i minima ). elementy wektora gradientu są pochodnymi cząstkowymi S względem parametrów:

{\ Displaystyle {\ Frac {\ częściowe S} {\ częściowe \ beta _ {j}}} = 2 \ suma _ {i = 1} ^ {m} r_ {i} {\ Frac {\ częściowe r_ {i} }{\częściowe \beta _{j}}}\qquad (j=1,2,\kropki,n).}

Pochodne są

{\ Displaystyle {\ Frac {\ częściowe r_ {i}} {\ częściowe \ beta _ {j}}} = - X_ {ij}.}

Podstawienie wyrażeń na reszty i pochodne do równań gradientowych daje

{\ Displaystyle {\ Frac {\ częściowe S} {\ częściowe \ beta _ {j}}} = 2 \ suma _ {i = 1} ^ {m} \ lewo (y_ {i} - \ suma _ {k = 1}^{n}X_{ik}\beta _{k}\right)(-X_{ij})\qquad (j=1,2,\kropki ,n).}

Zatem jeśli minimalizuje S , mamy ${\ displaystyle {\ widehat {\ beta}}}$

{\ Displaystyle 2 \ suma _ {i = 1} ^ {m} \ lewo (y_ {i} - \ suma _ {k = 1} ^ {n} X_ {ik} {\ widehat {\ beta}} _ { k}\right)(-X_{ij})=0\qquad (j=1,2,\kropki ,n).}

Po przegrupowaniu otrzymujemy równania normalne :

{\ Displaystyle \ suma _ {i = 1} ^ {m} \ suma _ {k = 1} ^ {n} X_ {ij} X_ {ik} {\ widehat {\ beta}} _ {k} = \ suma _{i=1}^{m}X_{ij}y_{i}\qquad (j=1,2,\kropki ,n).}

Równania normalne są zapisywane w notacji macierzowej jako

{\ Displaystyle (\ mathbf {X} ^ {\ operatorname {T}} \ mathbf {X}) {\ widehat {\ boldsymbol {\ beta}}} = \ mathbf { X} ^{\mathrm {T} }\mathbf {y} }

(gdzie X ^T jest transpozycją macierzy X ).

Rozwiązanie równań normalnych daje wektor $.$ parametrów

Wyprowadzenie bezpośrednio w kategoriach macierzy

Równania normalne można wyprowadzić bezpośrednio z macierzowej reprezentacji problemu w następujący sposób. Celem jest zminimalizowanie

{\ Displaystyle S ({\ boldsymbol {\ beta}}) = {\ bigl \|} \ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}} {\ bigr \|} ^ {2} =(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta}} )=\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\beta}}^{\rm {T}}\mathbf {X} ^{\rm {T}} \mathbf {y} -\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta}}+{\boldsymbol {\beta}}^{\rm {T}}\ mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta}}.}

Tutaj ${\ Displaystyle ({\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf { y} )^{\rm {T}}=\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}} ma wymiar 1x1 (liczba$ kolumn ${\ Displaystyle \ mathbf {y}}$ ), więc jest skalarem i równym własnej transpozycji, stąd ${\ Displaystyle {\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} = \ mathbf {y} ^ {\ rm {T} }\mathbf {X} {\boldsymbol {\beta}}}$ i ilość do zminimalizowania staje się

{\ Displaystyle S ({\ boldsymbol {\ beta}}) = \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} -2 {\ boldsymbol {\ beta}} ^ {\ rm {T} }\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\ mathbf {X} {\boldsymbol {\beta}}.}

Zróżnicowanie tego w odniesieniu do i zrównanie do zera w celu spełnienia warunków pierwszego rzędu daje ${\ displaystyle {\ boldsymbol {\ beta}}}$

{\ Displaystyle - \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} + (\ mathbf {X} ^ {\ rm {T}} \mathbf {X} ){\boldsymbol {\beta}}=0,}

co jest równoważne podanym powyżej równaniom normalnym. Wystarczającym warunkiem ${X} ^ {\ rm { T}}\mathbf {X} }$ warunków drugiego rzędu dla minimum jest to, że mają pełną rangę kolumny, w takim przypadku $mathbf$ jest dodatnio określony .

Wyprowadzenie bez rachunku różniczkowego

Gdy $jest$ dodatnio określony, wzór na minimalizację wartości $}$ można wyprowadzić bez użycia pochodnych. Ilość

{\ Displaystyle S ({\ pogrubiony symbol {\ beta}}) = \ mathbf {y} ^ {\ rm {T}} \mathbf {y} -2{\boldsymbol {\beta}}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta}} ^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta}}}

można zapisać jako

{\ Displaystyle \ langle {\ boldsymbol {\ beta}}, {\ boldsymbol {\ beta}} \ rangle -2 \ langle {\ boldsymbol {\ beta}}, (\ mathbf {X} ^ {\ rm {T} }\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +\langle (\mathbf {X} ^{\rm {T}}\ mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,(\mathbf {X} ^{\rm {T}}\mathbf {X} )^ {-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C,}

gdzie zależy tylko od $Displaystyle$ $\ mathbf {y}}$ $i$ i ⟨ $}$ $\ Displaystyle \ langle \ cdot \ cdot \ rangle do {\ displaystyle$ jest iloczynem wewnętrznym zdefiniowanym przez

{\ Displaystyle \ langle x, y \ rangle = x ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) y.}

Wynika z tego, że równa się ${\ Displaystyle S ({\ boldsymbol {\ beta}})}$

{\ Displaystyle \ langle {\ boldsymbol {\ beta}} - (\ mathbf {X} ^ {\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,{\boldsymbol {\beta}}-(\mathbf { X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C}

i dlatego zminimalizowane dokładnie kiedy

{\ Displaystyle {\ boldsymbol {\ beta}} - (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1}\mathbf {X} ^{\rm {T}}\mathbf {y} =0.}

Uogólnienie dla złożonych równań

$współczynniki$ $.$ biorąc macierzy mogą być złożone Używając ${\beta}})}$ hermitowskiej prostej transpozycji, można znaleźć wektor który minimalizuje ${\ beta}}}}$ $widehat$ , podobnie jak w przypadku rzeczywistej macierzy. Aby otrzymać równania normalne, postępujemy podobnie jak w poprzednich wyprowadzeniach:

{\ Displaystyle \ Displaystyle S ({\ boldsymbol {\ beta}}) = \ langle \ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}, \ mathbf {y} - \ mathbf {X} {\boldsymbol {\beta}}\rangle =\langle \mathbf {y},\mathbf {y} \rangle -{\overline {\langle \mathbf {X} {\boldsymbol {\beta}},\mathbf { y} \rangle }}-{\overline {\langle \mathbf {y} ,\mathbf {X} {\boldsymbol {\beta}}\rangle }}+\langle \mathbf {X} {\boldsymbol {\beta }},\mathbf {X} {\boldsymbol {\beta}}\rangle =\mathbf {y} ^{\rm {T}}{\overline {\mathbf {y}}}-{\boldsymbol {\beta }} ^{\sztylet}\mathbf {X} ^{\sztylet}\mathbf {y} -\mathbf {y} ^{\sztylet}\mathbf {X} {\boldsymbol {\beta}}+{\boldsymbol {\beta}}^{\rm {T}}\mathbf {X} ^{\rm {T}}{\overline {\mathbf {X}}}{\overline {\boldsymbol {\beta}}}, }

gdzie ${\ displaystyle \ sztylet}$ oznacza transpozycję hermitowską.

Powinniśmy teraz wziąć pochodne $w$ $boldsymbol {\ beta}})}$ odniesieniu do każdego ze współczynników , rzeczywiste i części urojone, aby poradzić sobie z czynnikami sprzężonymi w powyższym wyrażeniu. Dla ${\ displaystyle \ beta _ {j}}$ mamy

{\ Displaystyle \ beta _ {j} = \ beta _ {j} ^ {R} + i \ beta _ {j} ^ {I}}

a pochodne zamieniają się w

{\ Displaystyle {\ Frac {\ częściowe S} {\ częściowe \ beta _ {j}}} = {\ Frac {\ częściowe S} {\ częściowe \ beta _ {j} ^ {R}}} {\ frac { \partial \beta _{j}^{R}}{\partial \beta _{j}}}+{\frac {\partial S}{\partial \beta _{j}^{I}}}{\ frac {\częściowa \beta _{j}^{I}}{\częściowa \beta _{j}}}}={\frac {\częściowa S}{\częściowa \beta _{j}^{R}}} -i {\frac {\częściowe S}{\częściowe \beta _{j}^{I}}}\quad (j=1,2,3,\ldots,n).}

Po przepisaniu w formie sumowania i wyraźnym zapisaniu $\ beta}}$ obliczyć obie pochodne cząstkowe z wynikiem: $)}$

{\ Displaystyle {\ rozpocząć {wyrównane}} {\ Frac {\ częściowe S} {\ częściowe \ beta _ {j} ^ {R}}} = {} & - \ suma _ {i = 1} ^ {m} \Big (}{\overline {X}}_{ij}y_{i}+{\overline {y}}_{i}X_{ij}{\Big )}+2\sum _{i=1} ^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{R}+\sum _{i=1}^{m}\sum _{k\neq j }^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}+\beta _{k}X_{ik}{\ overline {X}}_{ij}{\Big )},\\[8pt]&{}-i{\frac {\częściowe S}{\częściowe \beta _{j}^{I}}}=\ suma _{i=1}^{m}{\Duża (}{\overline {X}}_{ij}y_{i}-{\overline {y}}_{i}X_{ij}{\Duża )}-2i\sum _{i=1}^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{I}+\sum _{i=1} ^{m}\sum _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta}}_{k}- \beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\end{aligned}}}

co po dodaniu go do siebie i porównaniu do zera (warunek minimalizacji dla ) daje ${\ Displaystyle {\ boldsymbol {\ widehat {\ beta}}}}$

{\ Displaystyle \ suma _ {i = 1} ^ {m} X_ {ij} {\ overline {y}} _ {i} = \ suma _ {i = 1} ^ {m} \ suma _ {k = 1 }^{n}X_{ij}{\overline {X}}_{ik}{\overline {\widehat {\beta}}}_{k}\qquad (j=1,2,3,\ldots , N).}

W postaci macierzowej:

{\ Displaystyle {\ textbf {X}} ^ {\ rm {T}} {\ overline {\ textbf {y}}} = {\ textbf {X}} ^ {\ rm {T}} {\ overline {{ \big (}{\textbf {X}}{\boldsymbol {\widehat {\beta}}}{\big)}}}\quad {\text{lub }}\quad {\big (}{\textbf { X}}^{\sztylet }{\textbf {X}}{\big )}{\boldsymbol {\widehat {\beta}}}={\textbf {X}}^{\sztylet}}{\textbf {y }}.}

Estymator najmniejszych kwadratów dla β

Używając notacji macierzowej, suma kwadratów reszt jest dana przez

{\ Displaystyle S (\ beta) = (yX \ beta) ^ {T} (yX \ beta).}

Ponieważ jest to wyrażenie kwadratowe, wektor, który daje globalne minimum, można znaleźć za pomocą rachunku macierzowego , różniczkując względem wektora (przy użyciu układu mianownika) i ustawiając go na zero: ${\ displaystyle \ beta}$

{\ Displaystyle 0 = {\ Frac {dS} {d \ beta}} ({\ widehat {\ beta}}) = {\ Frac {d} {d \ beta}} {\ bigg (} y ^ {T }y-\beta ^{T}X^{T}yy^{T}X\beta +\beta ^{T}X^{T}X\beta {\bigg )}{\bigg |}_{\ beta ={\szeroki kapelusz {\beta}}}=-2X^{T}y+2X^{T}X{\szeroki kapelusz {\beta}}}

Przy założeniu, że macierz X ma pełny rząd kolumn, a zatem X ^T X jest odwracalna, a estymator najmniejszych kwadratów dla β jest określony wzorem

{\ Displaystyle {\ widehat {\ beta}} = (X ^ {T} X) ^ {- 1} X ^ {T} y}

Bezstronność i wariancja ${\ Displaystyle {\ widehat {\ beta}}}$

Podstaw y = Xβ + ε do wzoru na ${\ Displaystyle {\ widehat {\ beta}}},$ a następnie użyj prawa całkowitego oczekiwania : β ^ {\ Displaystyle {\ widehat {\ beta}}}

{\ Displaystyle {\ rozpocząć {wyrównane} \ nazwa operatora {E} [\, {\ widehat {\ beta}}] & = \ nazwa operatora {E} {\ duży [} (X ^ {T} X) ^ {- 1 }X^{T}(X\beta +\varepsilon ){\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1}X ^{T}\varepsilon {\Duży ]}\\&=\beta +\nazwa operatora {E} {\Duży [}\nazwa operatora {E} {\Duży [}(X^{T}X)^{-1 }X^{T}\varepsilon \mid X{\Big ]}{\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1 }X^{T}\operatorname {E} [\varepsilon \mid X]{\Big ]}&=\beta ,\end{aligned}}}

gdzie E[ ε | X ] = 0 według założeń modelu. Ponieważ oczekiwana wartość $beta}}$ równa parametrowi, który szacuje $,$ to nieobciążony estymator β ${ \ displaystyle$ .

Dla wariancji niech macierz kowariancji będzie mi $sigma ^ {2} I}$ $]$ $\ varepsilon ^ {T} \,] =$ $.$ (gdzie $) i niech$ macierz tożsamości znaną stałą Następnie,

{\ Displaystyle {\ rozpocząć {wyrównane} \ nazwa operatora {E} [\, ({\ widehat {\ beta}} - \ beta) ({\ widehat {\ beta}} - \ beta) ^ {T}] & = \operatorname {E} {\Duży [}((X^{T}X)^{-1}X^{T}\varepsilon )((X^{T}X)^{-1}X^{T }\varepsilon )^{T}{\Duży ]}\\&=\operatorname {E} {\Duży [}(X^{T}X)^{-1}X^{T}\varepsilon \varepsilon ^ {T}X(X^{T}X)^{-1}{\Duży ]}\\&=(X^{T}X)^{-1}X^{T}\nazwa_operatora {E} { \Big [}\varepsilon \varepsilon ^{T}{\Big ]}X(X^{T}X)^{-1}\\&=(X^{T}X)^{-1}X^ {T}\sigma ^{2}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1}X^{T }X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1},\end{wyrównane}}}

$przez$ wykorzystaliśmy fakt, że ${\ Displaystyle (X ^ {T} X) ^ {- 1} X ^ {T}}$ tylko afiniczna transformacja ε ${\ Displaystyle \$ macierz .

Dla prostego modelu regresji liniowej, gdzie ${\ Displaystyle \ beta = [\ beta _ {0}, \ beta _ {1}] ^ {T}}$ ( ${\ Displaystyle \ beta _ {0}}$ to punkt przecięcia z osią y i to nachylenie), otrzymuje się ${\ Displaystyle \ beta _ {1}}$

{\ Displaystyle {\ rozpocząć {wyrównane} \ sigma ^ {2} (X ^ {T} X) ^ {- 1} & = \ sigma ^ {2} \ lewo ({\ rozpocząć {pmatrix} 1 i 1 & \ cdots \\ x_{1}&x_{2}&\cdots \end{pmatrix}}{\begin{pmatrix}1&x_{1}\\1&x_{2}\\\vdots &\vdots \,\,\,\end{pmatrix }}\right)^{-1}\\[6pt]&=\sigma ^{2}\left(\sum _{i=1}^{m}{\begin{pmatrix}1&x_{i}\\ x_{i}&x_{i}^{2}\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}{\begin{pmatrix}m&\sum x_{ i}\\\suma x_{i}&\suma x_{i}^{2}\end{pmatrix}}^{-1}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum x_{i}^{2}-(\sum x_{i})^{2}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i}&m\end{pmatrix}}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum {(x_{i }-{\bar {x}})^{2}}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i} &m\end{pmatrix}}\\[8pt]\operatorname {Var} ({\widehat {\beta}}_{1})&={\frac {\sigma ^{2}}{\sum _{i =1}^{m}(x_{i}-{\bar {x}})^{2}}}.\end{wyrównane}}}

Oczekiwana wartość i stronniczość ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$

Najpierw wstawimy wyrażenie dla y do estymatora i wykorzystamy fakt, że X'M = MX = 0 (macierz M rzutuje na przestrzeń prostopadłą do X ):

{\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2 }={\tfrac {1}{n}}y'Mój={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )={\tfrac {1 }{n}}\varepsilon 'M\varepsilon}

Teraz możemy rozpoznać ε ′ Mε jako macierz 1×1, taka macierz jest równa własnemu śladowi . Jest to przydatne, ponieważ dzięki właściwościom operatora śladu tr ( AB ) = tr ( BA ) możemy go użyć do oddzielenia zakłócenia ε od macierzy M , która jest funkcją regresorów X :

{\ Displaystyle \ nazwa operatora {E} \, {\ widehat {\ sigma}} ^ {\, 2} = {\ tfrac {1} {n}} \ nazwa operatora {E} {\ duży [} \ nazwa operatora {tr} (\varepsilon 'M\varepsilon ){\big ]}={\tfrac {1}{n}}\operatorname {tr} {\big (}\operatorname {E} [M\varepsilon \varepsilon ']{\big )}}

Korzystając z prawa iterowanych oczekiwań, można to zapisać jako

{\ Displaystyle \ nazwa operatora {E} \, {\ widehat {\ sigma}} ^ {\, 2} = {\ tfrac {1} {n}} \ nazwa operatora {tr} {\ duży (} \ nazwa operatora {E} {\big [}M\,\operatorname {E} [\varepsilon \varepsilon '|X]{\big ]}{\Big )}={\tfrac {1}{n}}\operatorname {tr} {\ big (}\operatorname {E} [\sigma ^{2}MI]{\big )}={\tfrac {1}{n}}\sigma ^{2}\operatorname {E} {\big [}\ nazwa_operatora {tr} \,M{\big ]}}

Przypomnijmy, że M = I − P , gdzie P jest rzutem na przestrzeń liniową rozpiętą przez kolumny macierzy X . Z własności macierzy projekcji wynika , że ma ona wartości własne p = rank( X ) równe 1, a wszystkie inne wartości własne równe 0. Ślad macierzy jest równy sumie jej wartości charakterystycznych, stąd tr( P ) = p i tr( M ) = n - p . Dlatego,

{\ Displaystyle \ nazwa operatora {E} \, {\ widehat {\ sigma}} ^ {\, 2} = {\ Frac {np} {n}} \ sigma ^ { 2}}

Ponieważ oczekiwana wartość nie jest równa parametrowi, który szacuje, to ${\, 2$ $\ Displaystyle {\ widehat {\ sigma}} ^$ } jest obciążonym estymatorem σ $\ displaystyle \ sigma ^ {\, 2}}$ . Uwaga w dalszej części „Maksymalne prawdopodobieństwo” pokazujemy, że przy dodatkowym założeniu, że błędy mają rozkład normalny, estymator ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ jest proporcjonalny do rozkładu chi-kwadrat o n – p stopniach swobody, z którego natychmiast wynikałby wzór na wartość oczekiwaną. Jednak wynik, który pokazaliśmy w tej sekcji, jest ważny niezależnie od rozkładu błędów, a zatem sam w sobie ma znaczenie.

Spójność i asymptotyczna normalność ${\ Displaystyle {\ widehat {\ beta}}}$

Estymator można zapisać jako ${\ Displaystyle {\ widehat {\ beta}}}$

{\ Displaystyle {\ widehat {\ beta}} = {\ duży (} {\ tfrac {1} {n}} X'X {\ duży)} ^ { -1}{\tfrac {1}{n}}X'y=\beta +{\big (}{\tfrac {1}{n}}X'X{\big )}^{-1}{\ tfrac {1}{n}}X'\varepsilon =\beta \;+\;{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{i }x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{ i}\varepsilon _{i}{\bigg )}}

Możemy użyć prawa wielkich liczb, aby to ustalić

{\ Displaystyle {\ Frac {1} {n}} \ suma _ {i = 1} ^ {n} x_ {i} x'_ {i} \ {\ xrightarrow {p}} \ \ operatorname {E} [ x_{i}x_{i}']={\frac {Q_{xx}}{n}},\qquad {\frac {1}{n}}\suma _{i=1}^{n}x_ {i}\varepsilon _{i}\ {\xrightarrow {p}}\ \operatorname {E} [x_{i}\varepsilon _{i}]=0}

Za pomocą twierdzenia Słuckiego i twierdzenia o ciągłym mapowaniu wyniki te można połączyć, aby ustalić spójność estymatora: ${\ Displaystyle {\ widehat {\ beta}}}$ :

{\ Displaystyle {\ widehat {\ beta}} \ {\ xrightarrow {p}} \ \ beta + nQ_ {xx} ^ {- 1} \ cdot 0 =\beta}

Mówi nam o tym centralne twierdzenie graniczne

{\ Displaystyle {\ Frac {1} {\ sqrt {n}}} \ suma _ {i = 1} ^ {n} x_ { i}\varepsilon _{i}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big (}0,\,V{\big)},}

gdzie

{\ Displaystyle V = \ operatorname {Var} [x_ {i} \ varepsilon _ {i}] =\operatorname {E} [\,\varepsilon _{i}^{2}x_{i}x'_{i}\,]=\operatorname {E} {\big [}\,\operatorname {E} [\varepsilon _{i}^{2}\mid x_{i}]\;x_{i}x'_{i}\,{\big ]}=\sigma ^{2}{\frac {Q_{ xx}}{n}}}

Stosując ponownie twierdzenie Słuckiego, będziemy mieli

{\ Displaystyle {\ sqrt {n}} ({\ widehat {\ beta}} - \ beta) = {\ bigg (}{\ Frac {1 }{n}}\sum _{i=1}^{n}x_{i}x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{\frac { 1}{\sqrt {n}}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}{\bigg )}\ {\xrightarrow {d}}\ Q_{xx} ^{-1}n\cdot {\mathcal {N}}{\big (}0,\sigma ^{2}{\frac {Q_{xx}}{n}}{\big)}={\mathcal {N}}{\big (}0,\sigma ^{2}Q_{xx}^{-1}n{\big)}}

Podejście największego prawdopodobieństwa

Oszacowanie największej wiarygodności to ogólna technika szacowania nieznanych parametrów w modelu statystycznym poprzez konstruowanie funkcji logarytmicznej wiarygodności odpowiadającej łącznemu rozkładowi danych, a następnie maksymalizowanie tej funkcji dla wszystkich możliwych wartości parametrów. Aby zastosować tę metodę, musimy przyjąć założenie o rozkładzie y przy danym X, aby można było skonstruować funkcję logarytmu wiarygodności. Połączenie oszacowania największej wiarygodności z OLS powstaje, gdy ten rozkład jest modelowany jako wielowymiarowa normalna .

W szczególności załóżmy, że błędy ε mają wielowymiarowy rozkład normalny ze średnią 0 i macierzą wariancji σ ² I . Wtedy rozkład y warunkowo na X wynosi

{\ Displaystyle y \ środkowy X \ \ sim \ {\ mathcal {N}} (X \ beta, \, \ sigma ^ {2} ja)}

a funkcja logarytmu wiarygodności danych będzie

{\ Displaystyle {\ rozpocząć {wyrównane} {\ mathcal {L}} (\ beta, \ sigma ^ {2} \ mid X) & = \ ln {\ bigg (} {\ Frac {1} {(2 \ pi )^{n/2}(\sigma ^{2})^{n/2}}}e^{-{\frac {1}{2}}(yX\beta )'(\sigma ^{2} I)^{-1}(yX\beta )}{\bigg )}\\[6pt]&=-{\frac {n}{2}}\ln 2\pi -{\frac {n}{2 }}\ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}(yX\beta )'(yX\beta)\end{wyrównane}}}

Różniczkując to wyrażenie względem β i σ ² znajdziemy oszacowania ML tych parametrów:

{\ Displaystyle {\ rozpocząć {wyrównane} {\ Frac {\ częściowe {\ mathcal {L}}} {\ częściowe \ beta '}} & = - {\ Frac {1} {2 \ sigma ^ {2}}} {\Big (}-2X'y+2X'X\beta {\Big )}=0\quad \Rightarrow \quad {\widehat {\beta }}=(X'X)^{-1}X'y \\[6pt]{\frac {\częściowy {\mathcal {L}}}{\częściowy \sigma ^{2}}}&=-{\frac {n}{2}}{\frac {1}{ \sigma ^{2}}}+{\frac {1}{2\sigma ^{4}}}(yX\beta )'(yX\beta)=0\quad \strzałka w prawo \quad {\widehat {\sigma }}^{\,2}={\frac {1}{n}}(yX{\widehat {\beta}})'(yX{\widehat {\beta}})={\frac {1}{ n}}S({\widehat {\beta}})\koniec {wyrównane}}}

Możemy sprawdzić, czy rzeczywiście jest to maksimum, patrząc na macierz Hessego funkcji logarytmu wiarygodności.

Rozkład próby skończonej

$estymatorów$ założyliśmy, że rozkład składników błędu jest znany jako normalny, możliwe staje się wyprowadzenie jawnych wyrażeń dla i ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ :

{\ Displaystyle {\ widehat {\ beta}} = (X'X) ^ {-1} X'y = (X'X) ^ {-1} X '(X \ beta + \ varepsilon) = \ beta + (X'X)^{-1}X'{\mathcal {N}}(0,\sigma ^{2}I)}

tak, że przez właściwości transformacji afinicznej wielowymiarowego rozkładu normalnego

{\ Displaystyle {\ widehat {\ beta}} \ mid X \ \ sim \ {\ mathcal {N}} (\ beta, \, \ sigma ^ {2} (X'X) ^ {- 1}).}

Podobnie rozkład wynika z ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$

{\ Displaystyle {\ rozpocząć {wyrównane}} {\ widehat {\ sigma}} ^ {\, 2} i = {\ tfrac {1} {n}}(yX(X'X)^{-1}X'y)'(yX(X'X)^{-1}X'y)\\[5pt]&={\tfrac {1} {n}}(Mój)'Mój\\[5pt]&={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )\\[5pt]& ={\tfrac {1}{n}}\varepsilon 'M\varepsilon,\end{wyrównane}}}

gdzie ${\ Displaystyle M = IX (X'X) ^ {-1} X'}$ jest symetryczną macierzą projekcji na podprzestrzeń prostopadłą do X , a zatem MX = X ′ M = 0. Argumentowaliśmy wcześniej , że ta macierz ma rangę n – p , a więc przez właściwości rozkładu chi-kwadrat ,

{\ Displaystyle {\ tfrac {n} {\ sigma ^ {2}}} {\ widehat {\ sigma }}^{\,2}\mid X=(\varepsilon /\sigma )'M(\varepsilon /\sigma )\ \sim \ \chi _{np}^{2}}

$\ Displaystyle {\ widehat {$ estymatory okazują się niezależne warunkowe dla X ) $beta}}$ } , co jest fundamentalne dla konstrukcji klasycznych testów t i F. $wektorów$ : estymator reprezentuje współczynniki rozkładu ${\ Displaystyle {\ widehat {y}} = X {\ widehat {\ beta}} = Py = X \ beta + P \ varepsilon}$ na podstawie kolumn X , jako takie ${\ Displaystyle {\ widehat {\ beta}}}$ jest funkcją Pε . Jednocześnie estymator $podzieloną$ normą wektora Mε przez n , a zatem ten jest funkcją . Teraz zmienne losowe ( Pε , Mε ) są łącznie normalne jako transformacja liniowa ε , a także są nieskorelowane, ponieważ PM = 0. Z własności wielowymiarowego rozkładu normalnego wynika, że Pε i Mε są niezależne, a zatem estymatory $\ beta}}}$ $\ widehat$ i również będą niezależne.

Wyprowadzanie prostych estymatorów regresji liniowej

Szukamy i ${\ Displaystyle {\ widehat$ ${\ beta}}}$ , które minimalizują sumę kwadratów błędów (SSE):

{\ Displaystyle \ min _ {{\ widehat {\ alfa}}, {\ widehat {\ beta}}} \, \ nazwa operatora {SSE} \ lewo ({\ widehat {\ alfa}}, {\ widehat {\ beta }}\right)\equiv \min _{{\widehat {\alpha}},{\widehat {\beta}}}\sum _{i=1}^{n}\left(y_{i}-{ \widehat {\alpha}}-{\widehat {\beta}}x_{i}\right)^{2}}

${\ widehat {\ beta}}}$ minimum, weź pochodne cząstkowe względem i β $Displaystyle$

{\ Displaystyle {\ rozpocząć {wyrównane} i {\ Frac {\ częściowe}} {\ częściowe {\ widehat {\ alfa}}}} \ lewo (\ nazwa operatora {SSE} \ lewo ({\ widehat {\ alfa}}, {\widehat {\beta}}\right)\right)=-2\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha}}-{\widehat { \beta }}x_{i}\right)=0\\[4pt]\Strzałka w prawo {}&\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha} }-{\widehat {\beta }}x_{i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}y_{i}=\sum _{ i=1}^{n}{\widehat {\alpha}}+{\widehat {\beta}}\sum _{i=1}^{n}x_{i}\\[4pt]\Strzałka w prawo {} &\sum _{i=1}^{n}y_{i}=n{\widehat {\alpha }}+{\widehat {\beta}}\sum _{i=1}^{n}x_{ i}\\[4pt]\strzałka w prawo {}&{\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\widehat {\alpha }}+{\ frac {1}{n}}{\widehat {\beta}}\sum _{i=1}^{n}x_{i}\\[4pt]\Strzałka w prawo {}&{\bar {y}}= {\widehat {\alpha}}+{\widehat {\beta}}{\bar {x}}\end{wyrównane}}}

$wzięciem$ względem , zastąp poprzedni wynik ${\ Displaystyle {\ widehat {\ alfa}}.}$

{\ Displaystyle \ min _ {{\ widehat {\ alfa}}, {\ widehat {\ beta}}} \ suma _ {i = 1} ^ {n} \ lewo [ y_{i}-\left({\bar {y}}-{\widehat {\beta}}{\bar {x}}\right)-{\widehat {\beta}}x_{i}\right] ^{2}=\min _{{\widehat {\alpha}},{\widehat {\beta}}}\sum _{i=1}^{n}\left[\left(y_{i}- {\bar {y}}\right)-{\widehat {\beta}}\left(x_{i}-{\bar {x}}\right)\right]^{2}}

Teraz weź pochodną względem ${\ Displaystyle {\ widehat {\ beta}}}$ :

{\ Displaystyle {\ rozpocząć {wyrównane} i {\ Frac {\ częściowe}} {\ częściowe {\ widehat {\ beta}}}} \ lewo (\ nazwa operatora {SSE} \ lewo ({\ widehat {\ alfa}}, {\widehat {\beta}}\right)\right)=-2\sum _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right) -{\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]\left(x_{i}-{\bar {x}}\right)=0 \\\strzałka w prawo {}&\suma _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x }}\right)-{\widehat {\beta }}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}=0 \\\strzałka w prawo {}&{\widehat {\beta}}={\frac {\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right) \left(x_{i}-{\bar {x}}\right)}{\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right) ^{2}}}={\frac {\operatorname {Cov} (x,y)}{\operatorname {Var} (x)}}\end{wyrównane}}}

I na koniec zastąp ${\ Displaystyle {\ widehat {\ beta}}},$ aby określić ${\ Displaystyle {\ widehat {\ alfa}}}$

{\ Displaystyle {\ widehat {\ alfa}} = {\ bar {y}} - {\ widehat {\ beta}} {\ bar {x}}}