Wystarczająca redukcja wymiarów

W statystyce wystarczająca redukcja wymiarów (SDR) jest paradygmatem analizy danych, który łączy idee redukcji wymiarów z koncepcją wystarczalności .

Redukcja wymiarów od dawna jest głównym celem analizy regresji . Biorąc pod uwagę zmienną odpowiedzi y i p -wymiarowy wektor predykcyjny , analiza regresji ma na zbadanie rozkładu , warunkowy rozkład y dany . Redukcja wymiaru jest funkcją odwzorowuje na podzbiór , k < p , zmniejszając w wymiar . Na przykład może to być jedna lub więcej liniowych kombinacji x textbf

\ Displaystyle \ { jest taki sam jak . Innymi słowy, żadne informacje o regresji nie zostaną utracone podczas zmniejszania wymiaru, jest wystarczająca.

Motywacja graficzna

graficzne podsumowanie rozkładu Na przykład można rozważyć punktowy funkcji jednego lub predyktorów. Wykres punktowy, który zawiera wszystkie dostępne informacje o regresji, nazywany jest wystarczającym wykresem podsumowującym .

Kiedy wielowymiarowy, szczególnie gdy i wizualna interpretacja wykresów podsumowujących wystarczalność bez zmniejszania danych staje się Nawet trójwymiarowe wykresy punktowe muszą być przeglądane za pomocą programu komputerowego, a trzeci wymiar można wizualizować jedynie poprzez obracanie osi współrzędnych. Jeśli jednak istnieje wystarczająca redukcja wymiarów, przy wystarczająco małym wymiarze można stosunkowo łatwo skonstruować i zinterpretować wizualnie wystarczający wykres podsumowujący w porównaniu z

wymiarów pozwala na graficzną intuicję dotyczącą rozkładu dla danych wielowymiarowych.

metodologii graficznej koncentruje się przede wszystkim na redukcji wymiarów obejmującej kombinacje . Dalsza część tego artykułu dotyczy tylko takich redukcji.

Podprzestrzeń redukcji wymiarów

Załóżmy, że wystarczającą redukcją wymiarów, gdzie jest za macierz o randze ​​. Następnie informacje o regresji dla można wywnioskować, badając rozkład i wykres zależności T \ jest wystarczającym wykresem podsumowującym.

Bez utraty ogólności należy wziąć pod uwagę przestrzeń zajmowaną przez . Niech będzie podstawą dla przestrzeni kolumnowej przestrzeń rozpięta przez będzie oznaczona przez . Z definicji wystarczającej redukcji wymiarów wynika, że

gdzie odpowiednią funkcję . Innym sposobem wyrażenia tej właściwości jest

lub warunkowo niezależny od , biorąc pod uwagę { \ textbf . Następnie podprzestrzeń zdefiniowana jako ) .

Wymiar strukturalny

W przypadku regresji wymiar strukturalny jest najmniejszą liczbą różnych kombinacji liniowych y niezbędne do zachowania rozkładu warunkowego . Innymi słowy, najmniejsza redukcja wymiarów, która jest wciąż wystarczająca, odwzorowuje podzbiór . Odpowiedni DRS będzie d -wymiarowy.

Minimalna podprzestrzeń redukcji wymiarów

podprzestrzeń jest minimalnym DRS dla jeśli jest to DRS, a jej wymiar jest mniejszy niż S {\ Displaystyle {\ mathcal {S}} lub równa wartości wszystkich innych DRS dla . Minimalny DRS jest unikalny, ale jego wymiar jest równy wymiarowi strukturalnemu z definicji.

Jeśli podstawę i jest minimalnym DRS, to wykres y względem jest minimalnym wystarczającym wykresem podsumowującym i jest ( d + 1)-wymiarowy.

Podprzestrzeń centralna

Jeśli podprzestrzeń jest DRS dla i jeśli dla wszystkich innych DRS , to jest to centralna redukcja wymiaru podprzestrzeń , lub po prostu centralna podprzestrzeń , i jest oznaczona przez . Innymi słowy, centralna podprzestrzeń dla wtedy i tylko wtedy, gdy textstyle \ wszystkich podprzestrzeni redukcji wymiarów jest również podprzestrzenią redukcji wymiarów, a to przecięcie jest centralną podprzestrzenią }

Centralna podprzestrzeń istnieje, ponieważ przecięcie niekoniecznie oznacza DRS. Jeśli jednak istnieje , to również unikalna podprzestrzeń redukcji

Istnienie centralnej podprzestrzeni

Chociaż istnienie centralnej podprzestrzeni każdej sytuacji regresji, istnieją pewne dość ogólne warunki, w których jej istnienie następuje bezpośrednio Rozważmy na przykład następującą propozycję Cooka (1998):

Niech i będą podprzestrzeniami redukcji wymiarów dla . Jeśli ma dla wszystkich Omega } wszędzie indziej, gdzie jest wypukła , wtedy przecięcie jest również podprzestrzenią redukcji wymiarów.

wynika, że ​​centralna takiego

Metody redukcji wymiarów

Istnieje wiele metod redukcji wymiarów, zarówno graficznych, jak i numerycznych. Na przykład regresja odwrotna w plasterkach (SIR) i estymacja przeciętnej wariancji w plasterkach (SAVE) zostały wprowadzone w latach 90. XX wieku i nadal są szeroko stosowane. Chociaż SIR został pierwotnie zaprojektowany do oszacowania podprzestrzeni redukującej wymiar , obecnie rozumie się, że szacuje on tylko centralną podprzestrzeń, która jest generalnie inna.

Nowsze metody redukcji wymiarów obejmują wystarczającą redukcję wymiarów opartą na prawdopodobieństwie , oszacowanie środkowej podprzestrzeni na podstawie odwrotnego trzeciego momentu (lub k -tego momentu), oszacowanie centralnej przestrzeni rozwiązań, regresję graficzną, model obwiedni i główną maszynę wektorów nośnych. Więcej informacji na temat tych i innych metod można znaleźć w literaturze statystycznej.

Analiza głównych składowych (PCA) i podobne metody redukcji wymiarów nie opierają się na zasadzie wystarczalności.

Przykład: regresja liniowa

Rozważ model regresji

Zauważ, że rozkład jest taki sam jak rozkład . Stąd rozpiętość podprzestrzenią redukcji wymiarów Również jest 1-wymiarowy (chyba że , więc wymiar strukturalny tej regresji jest .

Oszacowanie OLS spójne , więc rozpiętość jest β \ beta estymator . Działka kontra jest wystarczającym wykresem podsumowującym dla tej regresji.

Zobacz też

Notatki

Linki zewnętrzne