Wystarczająca redukcja wymiarów

W statystyce wystarczająca redukcja wymiarów (SDR) jest paradygmatem analizy danych, który łączy idee redukcji wymiarów z koncepcją wystarczalności .

Redukcja wymiarów od dawna jest głównym celem analizy regresji . Biorąc pod uwagę zmienną odpowiedzi y i p -wymiarowy wektor predykcyjny , analiza regresji ma na $Displaystyle$ zbadanie rozkładu $y \ mid {\ textbf {x}}}$ , warunkowy rozkład y ${\ displaystyle y}$ dany $x}}}$ . Redukcja wymiaru jest funkcją $}})}$ $x$ odwzorowuje na podzbiór ${\ Displaystyle \ mathbb {R} ^ {k$ , k < p , zmniejszając w $sposób$ wymiar . Na przykład może to być jedna lub więcej liniowych kombinacji x textbf ${x}}}$ $\ Displaystyle R ({\ textbf {x}})}$

$})}$ \ Displaystyle $($ \ { ${$ jest taki sam jak ${\ Displaystyle y \ mid {\ textbf {x}}}$ . Innymi słowy, żadne informacje o regresji nie zostaną utracone podczas zmniejszania wymiaru, $redukcja$ jest wystarczająca.

Motywacja graficzna

graficzne podsumowanie rozkładu ${\ displaystyle y \ mid {\ textbf {x}}} .$ Na przykład można rozważyć $więcej$ punktowy funkcji jednego lub predyktorów. Wykres punktowy, który zawiera wszystkie dostępne informacje o regresji, nazywany jest wystarczającym wykresem podsumowującym .

Kiedy $coraz$ wielowymiarowy, szczególnie gdy i wizualna interpretacja wykresów podsumowujących wystarczalność bez zmniejszania danych staje się $większym$ Nawet trójwymiarowe wykresy punktowe muszą być przeglądane za pomocą programu komputerowego, a trzeci wymiar można wizualizować jedynie poprzez obracanie osi współrzędnych. Jeśli jednak istnieje wystarczająca redukcja wymiarów, ${\ Displaystyle R ({\ textbf {x}})}$ przy wystarczająco małym wymiarze można stosunkowo łatwo skonstruować i zinterpretować wizualnie wystarczający wykres podsumowujący w porównaniu z $x$ ${\ Displaystyle R ({\ textbf {x}})$

$redukcja$ wymiarów pozwala na graficzną intuicję dotyczącą rozkładu dla danych wielowymiarowych.

$Większość$ metodologii graficznej koncentruje się przede wszystkim na redukcji wymiarów obejmującej kombinacje . Dalsza część tego artykułu dotyczy tylko takich redukcji.

Podprzestrzeń redukcji wymiarów

Załóżmy, że $}}} jest$ $x$ wystarczającą redukcją wymiarów, gdzie jest za ${\ Displaystyle p \ razy k}$ macierz o randze ${\ Displaystyle k \ równoważnik p}$ . Następnie informacje o regresji dla ${\ Displaystyle y \ mid {\ textbf {x}}}$ można wywnioskować, badając rozkład i wykres zależności $A ^ {T} {\ textbf {$ $mid$ T $}}}$ \ jest wystarczającym wykresem podsumowującym.

Bez utraty ogólności należy wziąć pod uwagę $tylko$ przestrzeń zajmowaną przez . Niech ${\ displaystyle \ eta}$ będzie podstawą dla przestrzeni kolumnowej $}$ $S}}(\eta)}$ przestrzeń rozpięta przez będzie oznaczona przez $Displaystyle$ ${\ mathcal {$ . Z definicji wystarczającej redukcji wymiarów wynika, że

{\ Displaystyle F _ {y \ mid x} = F_ {y \ mid \ eta ^ {T} x},}

gdzie $rozkładu$ odpowiednią funkcję . Innym sposobem wyrażenia tej właściwości jest

{\ Displaystyle y \ perp \! \! \! \ perp {\ textbf {x}} \ mid \ eta ^ {T} {\ textbf {x}},}

lub $jest$ warunkowo niezależny od , biorąc pod uwagę $x}}}$ ${\ Displaystyle$ { \ textbf . Następnie podprzestrzeń $DRS$ zdefiniowana jako ) .

Wymiar strukturalny

W przypadku regresji wymiar strukturalny jest najmniejszą liczbą różnych kombinacji liniowych y $\ Displaystyle y \$ $mid {$ $textbf {x}}$ niezbędne do zachowania rozkładu warunkowego ${\ Displaystyle y \ mid {\ textbf {x}}}$ . Innymi słowy, najmniejsza redukcja wymiarów, która jest wciąż wystarczająca, odwzorowuje podzbiór ${\ displaystyle {\ textbf {x}}}$ ${\ Displaystyle \ mathbb {R} ^ {d}}$ . Odpowiedni DRS będzie d -wymiarowy.

Minimalna podprzestrzeń redukcji wymiarów

podprzestrzeń jest minimalnym DRS dla $y \ mid {\ textbf {x}}},$ $Displaystyle$ jeśli jest to DRS, a jej wymiar jest mniejszy niż S {\ Displaystyle {\ mathcal {S}} lub równa wartości wszystkich innych DRS dla ${\ Displaystyle y \ mid {\ textbf {x}}}$ . Minimalny DRS ${$ jest unikalny, ale jego wymiar jest równy wymiarowi strukturalnemu $\ displaystyle d}$ ∣ ${\ Displaystyle y \ mid {\ textbf {x}}}$ z definicji.

Jeśli $eta ^ {T}$ podstawę i jest minimalnym DRS, to wykres y względem $\ textbf { x}}}$ $Displaystyle \$ jest minimalnym wystarczającym wykresem podsumowującym i jest ( d + 1)-wymiarowy.

Podprzestrzeń centralna

Jeśli podprzestrzeń jest DRS dla $Displaystyle$ $y \ mid {\ textbf {x}}}$ i jeśli $\ mathcal {S}} \ subset {\ mathcal {S}} _ {drs}}$ dla wszystkich innych DRS , to jest to centralna redukcja wymiaru ${\ Displaystyle {\ mathcal {S}} _ {drs}}$ podprzestrzeń , lub po prostu centralna podprzestrzeń , i jest oznaczona przez ${\ Displaystyle {\ mathcal {S}} _ {y \ mid x}}$ . Innymi słowy, centralna podprzestrzeń dla $istnieje$ wtedy i tylko wtedy, gdy $bigcap {\ mathcal {S}} _ {drs}}$ textstyle \ wszystkich podprzestrzeni redukcji wymiarów jest również podprzestrzenią redukcji wymiarów, a to przecięcie jest centralną podprzestrzenią $}$ }

Centralna podprzestrzeń $niekoniecznie$ istnieje, ponieważ przecięcie ${drs}}$ $textstyle \ bigcap {\ mathcal {S}$ niekoniecznie oznacza DRS. Jeśli jednak istnieje , to $.$ również unikalna podprzestrzeń redukcji

Istnienie centralnej podprzestrzeni

Chociaż istnienie centralnej podprzestrzeni $gwarantowane$ każdej sytuacji regresji, istnieją pewne dość ogólne warunki, w których jej istnienie następuje bezpośrednio Rozważmy na przykład następującą propozycję Cooka (1998):

Niech

{\ Displaystyle {\ mathcal {S}} _ {1}}

i

{\ Displaystyle {\ mathcal {S}} _ {2}}

będą podprzestrzeniami redukcji wymiarów dla

{\ Displaystyle y \ mid {\textbf {x}}}

. Jeśli ma

\

Displaystyle f (a)> 0}

dla wszystkich

_ {x}

Omega }

a) = 0}

} _ {1}\cap {\mathcal {S}}_{2}}

wszędzie indziej, gdzie jest wypukła , wtedy przecięcie

2 {\ Displaystyle {\ mathcal {

jest również podprzestrzenią redukcji wymiarów.

$Z$ $istnieje$ wynika, że centralna takiego

Metody redukcji wymiarów

Istnieje wiele metod redukcji wymiarów, zarówno graficznych, jak i numerycznych. Na przykład regresja odwrotna w plasterkach (SIR) i estymacja przeciętnej wariancji w plasterkach (SAVE) zostały wprowadzone w latach 90. XX wieku i nadal są szeroko stosowane. Chociaż SIR został pierwotnie zaprojektowany do oszacowania podprzestrzeni redukującej wymiar , obecnie rozumie się, że szacuje on tylko centralną podprzestrzeń, która jest generalnie inna.

Nowsze metody redukcji wymiarów obejmują wystarczającą redukcję wymiarów opartą na prawdopodobieństwie , oszacowanie środkowej podprzestrzeni na podstawie odwrotnego trzeciego momentu (lub k -tego momentu), oszacowanie centralnej przestrzeni rozwiązań, regresję graficzną, model obwiedni i główną maszynę wektorów nośnych. Więcej informacji na temat tych i innych metod można znaleźć w literaturze statystycznej.

Analiza głównych składowych (PCA) i podobne metody redukcji wymiarów nie opierają się na zasadzie wystarczalności.

Przykład: regresja liniowa

Rozważ model regresji

{\ Displaystyle y = \ alfa + \ beta ^ {T} {\ textbf {x}} + \ varepsilon, {\ tekst {gdzie}} \ varepsilon \ sprawca \! \! \! \ perp {\ textbf {x} }.}

Zauważ, że rozkład ${\ Displaystyle y \ mid {\ textbf {x}}}$ jest taki sam jak rozkład ${\ Displaystyle y \ mid \ beta ^ {T} {\ textbf { x}}}$ . Stąd rozpiętość $.$ podprzestrzenią redukcji wymiarów Również ${\ displaystyle \ beta ^ {T} {\ textbf {x}}}$ jest 1-wymiarowy (chyba że $x {\ displaystyle \ beta ^ {T} {\ textbf {x}}}$ , więc wymiar strukturalny tej regresji jest ${\ displaystyle d = 1}$ .

Oszacowanie OLS $Displaystyle {\ kapelusz {$ spójne , więc rozpiętość jest $spójna$ β $}}$ \ beta estymator ${\ Displaystyle {\ mathcal {S}} _ {y \ mid x}}$ . Działka ${\ Displaystyle y}$ kontra ${\ Displaystyle {\ kapelusz {\ beta}} ^ {T} {\ textbf {x}}}$ jest wystarczającym wykresem podsumowującym dla tej regresji.

Zobacz też

Notatki

Cook, RD (1998) Grafika regresji: pomysły na badanie regresji za pomocą grafiki , Wiley Series in Probability and Statistics. Grafika regresji .
Cook, RD i Adragni, KP (2009) „Wystarczająca redukcja wymiarów i przewidywanie w regresji”, Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences , 367 (1906), 4385–4405. Pełny tekst
Cook, RD i Weisberg, S. (1991) „Sliced Inverse Regression for Dimension Reduction: Comment”, Journal of the American Statistical Association , 86 (414), 328–332. Jstor
Li, K.C. (1991) „Sliced Inverse Regression for Dimension Reduction”, Journal of the American Statistical Association , 86 (414), 316–327. Jstor

Linki zewnętrzne