Oszacowanie zmiennej gęstości jądra
W statystyce oszacowanie gęstości jądra z adaptacją lub „ zmienną szerokością pasma” jest formą oszacowania gęstości jądra , w której wielkość jąder używanych w oszacowaniu zmienia się w zależności od lokalizacji próbek lub lokalizacji punktu testowego. Jest to szczególnie skuteczna technika, gdy przestrzeń próbki jest wielowymiarowa.
Racjonalne uzasadnienie
Mając zestaw próbek, chcemy oszacować gęstość , , w punkcie testowym, :
gdzie n to liczba próbek, K to „jądro” , h to jego szerokość, a D to liczba wymiarów w . Jądro można traktować jako prosty, liniowy filtr .
Użycie stałej szerokości filtra może oznaczać, że w regionach o małej gęstości wszystkie próbki wpadną w ogony filtra o bardzo małej wadze, podczas gdy w obszarach o dużej gęstości znajdzie się nadmierna liczba próbek w obszarze centralnym o wadze bliskiej jedności . Aby rozwiązać ten problem, zmieniamy szerokość jądra w różnych regionach przestrzeni próbki. Można to zrobić na dwa sposoby: estymacja balonowa i punktowa. W estymatorze balonowym szerokość jądra zmienia się w zależności od położenia punktu testowego. W estymatorze punktowym szerokość jądra zmienia się w zależności od położenia próbki.
W przypadku estymatorów wielowymiarowych parametr h można uogólnić tak, aby zmieniał nie tylko rozmiar, ale także kształt jądra. To bardziej skomplikowane podejście nie zostanie tutaj omówione.
Estymatory balonów
Powszechną metodą zmiany szerokości jądra jest uczynienie go odwrotnie proporcjonalnym do gęstości w punkcie testowym:
gdzie k jest stałą. Jeśli podstawimy wstecz oszacowany plik PDF i założymy funkcję jądra Gaussa , możemy pokazać, że W jest stałą:
Podobne wyprowadzenie zachodzi dla dowolnego jądra, którego funkcja normalizująca jest rzędu h D , chociaż z innym stałym współczynnikiem zamiast (2 π) D/2 członu. Daje to uogólnienie algorytmu k-najbliższego sąsiada . Oznacza to, że jednolita funkcja jądra zwróci technikę KNN.
Istnieją dwa składniki błędu: składnik wariancji i składnik odchylenia. Termin wariancji jest podany jako:
- .
Składnik odchylenia znajduje się poprzez ocenę przybliżonej funkcji w granicy, gdy szerokość jądra staje się znacznie większa niż odstępy między próbkami. Używając rozwinięcia Taylora dla funkcji rzeczywistej, składnik odchylenia odpada:
W ten sposób można wyprowadzić optymalną szerokość jądra, która minimalizuje błąd każdego oszacowania.
Użyj do klasyfikacji statystycznej
Metoda jest szczególnie efektywna w zastosowaniu do klasyfikacji statystycznej . Możemy postępować na dwa sposoby: pierwszy polega na obliczeniu plików PDF każdej klasy osobno, przy użyciu różnych parametrów przepustowości, a następnie porównanie ich tak, jak w przypadku Taylora. Alternatywnie możemy podzielić sumę na podstawie klasy każdej próbki:
gdzie c i jest klasą i- tej próbki. Klasę punktu testowego można oszacować metodą największego prawdopodobieństwa .
Linki zewnętrzne
- akde1d.m - Matlab m-file do jednowymiarowej adaptacyjnej oceny gęstości jądra.
- libAGF — biblioteka C++ do wielowymiarowego, adaptacyjnego szacowania gęstości jądra.
- akde.m - funkcja Matlaba do wielowymiarowego (wysokowymiarowego) szacowania zmiennej gęstości jądra.
- ^ a b c DG Terrell; DW Scott (1992). „Oszacowanie zmiennej gęstości jądra” . Roczniki statystyki . 20 (3): 1236-1265. doi : 10.1214/aos/1176348768 .
- ^ a b Mills, Peter (2011). „Skuteczna klasyfikacja statystyczna pomiarów satelitarnych”. Międzynarodowy Dziennik Teledetekcji . 32 (21): 6109–6132. ar Xiv : 1202.2194 . doi : 10.1080/01431161.2010.507795 .
- ^ Taylor, Karol (1997). „Klasyfikacja i oszacowanie gęstości jądra”. Widoki w astronomii . 41 (3): 411–417. Bibcode : 1997VA.....41..411T . doi : 10.1016/s0083-6656(97)00046-9 .