Wystarczająca redukcja wymiarów
W statystyce wystarczająca redukcja wymiarów (SDR) jest paradygmatem analizy danych, który łączy idee redukcji wymiarów z koncepcją wystarczalności .
Redukcja wymiarów od dawna jest głównym celem analizy regresji . Biorąc pod uwagę zmienną odpowiedzi y i p -wymiarowy wektor predykcyjny , analiza regresji ma na zbadanie rozkładu , warunkowy rozkład y dany . Redukcja wymiaru jest funkcją odwzorowuje na podzbiór , k < p , zmniejszając w wymiar . Na przykład może to być jedna lub więcej liniowych kombinacji x textbf
\ Displaystyle \ { jest taki sam jak . Innymi słowy, żadne informacje o regresji nie zostaną utracone podczas zmniejszania wymiaru, jest wystarczająca.
Motywacja graficzna
graficzne podsumowanie rozkładu Na przykład można rozważyć punktowy funkcji jednego lub predyktorów. Wykres punktowy, który zawiera wszystkie dostępne informacje o regresji, nazywany jest wystarczającym wykresem podsumowującym .
Kiedy wielowymiarowy, szczególnie gdy i wizualna interpretacja wykresów podsumowujących wystarczalność bez zmniejszania danych staje się Nawet trójwymiarowe wykresy punktowe muszą być przeglądane za pomocą programu komputerowego, a trzeci wymiar można wizualizować jedynie poprzez obracanie osi współrzędnych. Jeśli jednak istnieje wystarczająca redukcja wymiarów, przy wystarczająco małym wymiarze można stosunkowo łatwo skonstruować i zinterpretować wizualnie wystarczający wykres podsumowujący w porównaniu z
wymiarów pozwala na graficzną intuicję dotyczącą rozkładu dla danych wielowymiarowych.
metodologii graficznej koncentruje się przede wszystkim na redukcji wymiarów obejmującej kombinacje . Dalsza część tego artykułu dotyczy tylko takich redukcji.
Podprzestrzeń redukcji wymiarów
Załóżmy, że wystarczającą redukcją wymiarów, gdzie jest za macierz o randze . Następnie informacje o regresji dla można wywnioskować, badając rozkład i wykres zależności T \ jest wystarczającym wykresem podsumowującym.
Bez utraty ogólności należy wziąć pod uwagę przestrzeń zajmowaną przez . Niech będzie podstawą dla przestrzeni kolumnowej przestrzeń rozpięta przez będzie oznaczona przez . Z definicji wystarczającej redukcji wymiarów wynika, że
gdzie odpowiednią funkcję . Innym sposobem wyrażenia tej właściwości jest
lub warunkowo niezależny od , biorąc pod uwagę { \ textbf . Następnie podprzestrzeń zdefiniowana jako ) .
Wymiar strukturalny
W przypadku regresji wymiar strukturalny jest najmniejszą liczbą różnych kombinacji liniowych y niezbędne do zachowania rozkładu warunkowego . Innymi słowy, najmniejsza redukcja wymiarów, która jest wciąż wystarczająca, odwzorowuje podzbiór . Odpowiedni DRS będzie d -wymiarowy.
Minimalna podprzestrzeń redukcji wymiarów
podprzestrzeń jest minimalnym DRS dla jeśli jest to DRS, a jej wymiar jest mniejszy niż S {\ Displaystyle {\ mathcal {S}} lub równa wartości wszystkich innych DRS dla . Minimalny DRS jest unikalny, ale jego wymiar jest równy wymiarowi strukturalnemu ∣ z definicji.
Jeśli podstawę i jest minimalnym DRS, to wykres y względem jest minimalnym wystarczającym wykresem podsumowującym i jest ( d + 1)-wymiarowy.
Podprzestrzeń centralna
Jeśli podprzestrzeń jest DRS dla i jeśli dla wszystkich innych DRS , to jest to centralna redukcja wymiaru podprzestrzeń , lub po prostu centralna podprzestrzeń , i jest oznaczona przez . Innymi słowy, centralna podprzestrzeń dla wtedy i tylko wtedy, gdy textstyle \ wszystkich podprzestrzeni redukcji wymiarów jest również podprzestrzenią redukcji wymiarów, a to przecięcie jest centralną podprzestrzenią }
Centralna podprzestrzeń istnieje, ponieważ przecięcie niekoniecznie oznacza DRS. Jeśli jednak istnieje , to również unikalna podprzestrzeń redukcji
Istnienie centralnej podprzestrzeni
Chociaż istnienie centralnej podprzestrzeni każdej sytuacji regresji, istnieją pewne dość ogólne warunki, w których jej istnienie następuje bezpośrednio Rozważmy na przykład następującą propozycję Cooka (1998):
- Niech i będą podprzestrzeniami redukcji wymiarów dla . Jeśli ma dla wszystkich Omega } wszędzie indziej, gdzie jest wypukła , wtedy przecięcie jest również podprzestrzenią redukcji wymiarów.
wynika, że centralna takiego
Metody redukcji wymiarów
Istnieje wiele metod redukcji wymiarów, zarówno graficznych, jak i numerycznych. Na przykład regresja odwrotna w plasterkach (SIR) i estymacja przeciętnej wariancji w plasterkach (SAVE) zostały wprowadzone w latach 90. XX wieku i nadal są szeroko stosowane. Chociaż SIR został pierwotnie zaprojektowany do oszacowania podprzestrzeni redukującej wymiar , obecnie rozumie się, że szacuje on tylko centralną podprzestrzeń, która jest generalnie inna.
Nowsze metody redukcji wymiarów obejmują wystarczającą redukcję wymiarów opartą na prawdopodobieństwie , oszacowanie środkowej podprzestrzeni na podstawie odwrotnego trzeciego momentu (lub k -tego momentu), oszacowanie centralnej przestrzeni rozwiązań, regresję graficzną, model obwiedni i główną maszynę wektorów nośnych. Więcej informacji na temat tych i innych metod można znaleźć w literaturze statystycznej.
Analiza głównych składowych (PCA) i podobne metody redukcji wymiarów nie opierają się na zasadzie wystarczalności.
Przykład: regresja liniowa
Rozważ model regresji
Zauważ, że rozkład jest taki sam jak rozkład . Stąd rozpiętość podprzestrzenią redukcji wymiarów Również jest 1-wymiarowy (chyba że , więc wymiar strukturalny tej regresji jest .
Oszacowanie OLS spójne , więc rozpiętość jest β \ beta estymator . Działka kontra jest wystarczającym wykresem podsumowującym dla tej regresji.
Zobacz też
- Redukcja wymiarów
- Pokrojona regresja odwrotna
- Analiza głównych składowych
- Liniowa analiza dyskryminacyjna
- Przekleństwo wymiarowości
- Wieloliniowe uczenie podprzestrzeni
Notatki
- Cook, RD (1998) Grafika regresji: pomysły na badanie regresji za pomocą grafiki , Wiley Series in Probability and Statistics. Grafika regresji .
- Cook, RD i Adragni, KP (2009) „Wystarczająca redukcja wymiarów i przewidywanie w regresji”, Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences , 367 (1906), 4385–4405. Pełny tekst
- Cook, RD i Weisberg, S. (1991) „Sliced Inverse Regression for Dimension Reduction: Comment”, Journal of the American Statistical Association , 86 (414), 328–332. Jstor
- Li, K.C. (1991) „Sliced Inverse Regression for Dimension Reduction”, Journal of the American Statistical Association , 86 (414), 316–327. Jstor