Wygładzanie addytywne
W statystyce wygładzanie addytywne , zwane także wygładzaniem Laplace'a lub wygładzaniem Lidstone'a , jest techniką stosowaną do wygładzania danych kategorycznych . Biorąc pod uwagę zbiór zliczeń obserwacji { \ textstyle \ textstyle {N}}, a wersja zliczeń daje estymatorowi :
gdzie wygładzona liczba " α > 0 jest parametrem wygładzania . α = 0 odpowiada brakowi wygładzania. (Parametr ten wyjaśniono w § Pseudoliczba poniżej). Wygładzanie addytywne jest rodzajem estymatora skurczu , ponieważ wynikowe oszacowanie będzie mieścić się między prawdopodobieństwem empirycznym ( częstość względna ) i jednolite prawdopodobieństwo . Powołując się na regułę sukcesji Laplace'a , niektórzy autorzy argumentowali [ potrzebne źródło ] , że α powinno wynosić 1 (w takim przypadku używany jest również termin wygładzanie add-one ) [ potrzebne dalsze wyjaśnienia ] , chociaż w praktyce zazwyczaj wybiera się mniejszą wartość.
Z bayesowskiego punktu widzenia odpowiada to oczekiwanej wartości rozkładu a posteriori przy użyciu symetrycznego rozkładu Dirichleta z parametrem α jako rozkładem a priori . W szczególnym przypadku, gdy liczba kategorii wynosi 2, jest to równoważne użyciu rozkładu Beta jako koniugatu poprzedzającego parametry rozkładu dwumianowego .
Historia
Laplace wymyślił tę technikę wygładzania, gdy próbował oszacować prawdopodobieństwo, że jutro wzejdzie słońce. Jego uzasadnieniem było to, że nawet biorąc pod uwagę dużą próbkę dni ze wschodzącym słońcem, nadal nie możemy być całkowicie pewni, że słońce nadal wzejdzie jutro (znany jako problem wschodu słońca ) .
pseudoliczba
Pseudoliczba to kwota (ogólnie nie liczba całkowita, pomimo swojej nazwy) dodawana do liczby obserwowanych przypadków w celu zmiany oczekiwanego prawdopodobieństwa w modelu tych danych, gdy nie wiadomo, że wynosi zero . Jest tak nazwany, ponieważ, z grubsza mówiąc, -liczba wartości w późniejszym rozkładzie podobnie jak każda kategoria mająca dodatkową liczbę . Jeśli częstotliwość każdego elementu spośród próbek, empiryczne prawdopodobieństwo zdarzenia } jest
ale późniejsze prawdopodobieństwo po wygładzeniu addytywnym jest
jakby chciał zwiększyć każdą liczbę o a priori.
W zależności od wcześniejszej wiedzy, która czasami jest wartością subiektywną, pseudoliczba może mieć dowolną nieujemną wartość skończoną. Może to być zero (lub możliwość zignorowana), jeśli jest to niemożliwe z definicji, na przykład możliwość, że cyfra dziesiętna liczby pi jest literą, lub fizyczna możliwość, która zostałaby odrzucona, a więc nie liczona, na przykład komputer drukujący list gdy uruchomiony jest prawidłowy program dla pi lub wykluczony i nie policzony z powodu braku zainteresowania, na przykład gdyby interesowały go tylko zera i jedynki. Ogólnie rzecz biorąc, istnieje również możliwość, że żadna wartość nie będzie obliczalna ani obserwowalna w skończonym czasie (patrz problem stopu ). Ale co najmniej jedna możliwość musi mieć niezerowe pseudoliczenie, w przeciwnym razie żadna prognoza nie mogłaby zostać obliczona przed pierwszą obserwacją. Względne wartości pseudoliczb reprezentują względne wcześniejsze oczekiwane prawdopodobieństwa ich możliwości. Suma pseudozliczeń, która może być bardzo duża, reprezentuje szacowaną wagę wcześniejszej wiedzy w porównaniu ze wszystkimi rzeczywistymi obserwacjami (po jednej dla każdej) przy określaniu oczekiwanego prawdopodobieństwa.
W każdym obserwowanym zbiorze danych lub próbce istnieje możliwość, zwłaszcza w przypadku zdarzeń o niskim prawdopodobieństwie i przy małych zbiorach danych, że możliwe zdarzenie nie wystąpi. Jego obserwowana częstotliwość wynosi zatem zero, co najwyraźniej sugeruje zerowe prawdopodobieństwo. uczenia maszynowego opartych na prawdopodobieństwie, takich jak sztuczne sieci neuronowe i ukryte modele Markowa . Sztucznie dostosowując prawdopodobieństwo rzadkich (ale nie niemożliwych) zdarzeń, tak aby prawdopodobieństwo to nie było dokładnie zerowe, unika się problemów z zerową częstotliwością . Zobacz także regułę Cromwella .
Najprostszym podejściem jest dodanie jednego do każdej zaobserwowanej liczby zdarzeń, w tym możliwości zera. Nazywa się to czasami regułą sukcesji Laplace'a . Podejście to jest równoważne założeniu jednolitego wcześniejszego rozkładu prawdopodobieństw dla każdego możliwego zdarzenia (obejmującego simplex, gdzie każde prawdopodobieństwo wynosi od 0 do 1, a wszystkie sumują się do 1).
Stosując uprzednie podejście Jeffreysa, do każdego możliwego wyniku należy dodać pseudoliczenie równe połowie.
Pseudoliczenia powinny być ustawione na jeden tylko wtedy, gdy nie ma żadnej wcześniejszej wiedzy — patrz zasada obojętności . Jednakże, biorąc pod uwagę odpowiednią wcześniejszą wiedzę, sumę należy dostosować proporcjonalnie do oczekiwań, że wcześniejsze prawdopodobieństwa należy uznać za prawidłowe, pomimo dowodów przeciwnych — zob. dalsza analiza . Wyższe wartości są odpowiednie, o ile istnieje wcześniejsza wiedza na temat prawdziwych wartości (powiedzmy dla monety w stanie menniczym); niższe wartości, o ile wcześniej wiadomo, że istnieje prawdopodobieństwo odchylenia, ale o nieznanym stopniu (powiedzmy dla zgiętej monety).
Bardziej złożonym podejściem jest oszacowanie prawdopodobieństwa zdarzeń na podstawie innych czynników i odpowiednie dostosowanie.
Przykłady
Jednym ze sposobów motywowania pseudozliczeń, szczególnie w przypadku danych dwumianowych, jest wzór na środek oszacowania przedziału , w szczególności przedział ufności proporcji dwumianowej . Najbardziej znany jest dzięki Edwinowi Bidwellowi Wilsonowi w Wilson (1927) : punkt środkowy przedziału punktacji Wilsona odpowiadającego odchyleniom standardowym po obu stronach to:
Przyjęcie odchyleń standardowych w celu przybliżenia 95% przedziału ufności ( łącznie 4, potocznie jako „reguła plus cztery”:
Jest to również punkt środkowy przedziału Agresti – Coull ( Agresti i Coull 1998 ).
Uogólnione na przypadek znanych współczynników zapadalności
Często testujesz obciążenie nieznanej populacji próbnej w porównaniu z populacją kontrolną o znanych parametrach (współczynnikach zapadalności) . W takim przypadku jednolite prawdopodobieństwo współczynnikiem zapadalności populacji kontrolnej , aby obliczyć wygładzony estymator:
Jako sprawdzenie spójności, jeśli estymator empiryczny jest równy częstości występowania, tj. , wygładzony estymator jest niezależny od równy częstości występowania.
Aplikacje
Klasyfikacja
Wygładzanie addytywne jest powszechnie składnikiem naiwnych klasyfikatorów Bayesa .
Statystyczne modelowanie języka
W modelu worka słów przetwarzania języka naturalnego i wyszukiwania informacji dane składają się z liczby wystąpień każdego słowa w dokumencie. Wygładzanie addytywne umożliwia przypisanie niezerowych prawdopodobieństw słowom, które nie występują w próbie. Niedawne badania dowiodły, że wygładzanie addytywne jest skuteczniejsze niż inne metody wygładzania prawdopodobieństwa w kilku zadaniach wyszukiwania, takich jak pseudorelewantność oparta na modelu języka i systemy rekomendacji .
Zobacz też
Źródła
- Wilson, EB (1927). „Prawdopodobne wnioskowanie, prawo sukcesji i wnioskowanie statystyczne”. Dziennik Amerykańskiego Towarzystwa Statystycznego . 22 (158): 209–212. doi : 10.1080/01621459.1927.10502953 . JSTOR 2276774 .
- Agresti, Alan; Coull, Brent A. (1998). „Przybliżony jest lepszy niż„ dokładny ”w przypadku szacowania przedziałów proporcji dwumianowych” . Amerykański statystyk . 52 (2): 119–126. doi : 10.2307/2685469 . JSTOR 2685469 . MR 1628435 .
Linki zewnętrzne
- SF Chen, J. Goodman (1996). „ Empiryczne badanie technik wygładzania do modelowania języka ”. Materiały z 34. dorocznego spotkania Association for Computational Linguistics .
- Pseudoliczniki