Rozkład predykcyjny a posteriori
Część serii dotyczącej |
statystyk Bayesa. |
---|
Późniejsze = prawdopodobieństwo × wcześniejsze ÷ dowodowe |
tło |
Budowa modelu |
Przybliżenie tylne |
Estymatory |
Przybliżenie dowodów |
Ocena modelu |
W statystyce Bayesa tylny rozkład predykcyjny to rozkład możliwych niezaobserwowanych wartości w zależności od obserwowanych wartości.
zestaw obserwacji N i.id _ zostanie z rozkładu zależnego od parametru, jest parametrów θ .
Podłączenie jednego najlepszego oszacowania może wydawać się kuszące ignoruje to niepewność co do , źródło niepewności zostanie zignorowane, rozkład predykcyjny będzie zbyt wąski. Innymi słowy, prognozy wartości ekstremalnych niż w przypadku uwzględnienia niepewności parametrów określonej przez ich rozkład późniejszy
Późniejszy rozkład predykcyjny uwzględnia niepewność . Rozkład późniejszy możliwych zależy od : }
A późniejszy rozkład predykcyjny, biorąc pod uwagę jest obliczany poprzez rozkładu biorąc pod uwagę rozkład późniejszy, biorąc pod uwagę }
Ponieważ uwzględnia to niepewność co do predykcyjny będzie na ogół szerszy niż rozkład predykcyjny, który uwzględnia jedno najlepsze oszacowanie .
Rozkład predykcyjny wcześniejszy i późniejszy
Wcześniejszy rozkład predykcyjny w kontekście bayesowskim to rozkład punktu danych marginalizowany w stosunku do jego wcześniejszego rozkładu. to θ , to wcześniejszy rozkład predykcyjny jest odpowiadającym rozkładem }
Jest to podobne do późniejszej dystrybucji predykcyjnej, z tą różnicą, że marginalizacja (lub równoważnie oczekiwanie) jest brana w odniesieniu do rozkładu wcześniejszego, a nie rozkładu późniejszego.
Ponadto, jeśli wcześniejszy rozkład koniugatem , to późniejszy rozkład predykcyjny będzie należeć do tej samej rodziny rozkładów, Łatwo to zobaczyć. Jeśli wcześniejszy rozkład jest sprzężony, to
tj. rozkład późniejszy innym pierwotnego Następnie
Zatem późniejszy rozkład predykcyjny ma ten sam rozkład H , co wcześniejszy rozkład predykcyjny, ale z późniejszymi wartościami hiperparametrów zastąpionymi wcześniejszymi.
Wcześniejszy rozkład predykcyjny ma postać rozkładu złożonego i w rzeczywistości jest często używany do zdefiniowania rozkładu złożonego ze względu na brak jakichkolwiek czynników komplikujących, takich jak zależność od danych. i kwestia koniugacji. Na przykład rozkład t-Studenta można zdefiniować jako wcześniejszy rozkład predykcyjny rozkładu normalnego ze znaną średnią μ , ale nieznaną wariancją σ x 2 , z wcześniejszym sprzężeniem skalowanym rozkładem odwrotnym chi-kwadrat umieszczonym na σ x 2 , z hiperparametrami ν i σ 2 . rozkład _ _ i jest zgodny z jedną z dwóch najczęstszych parametryzacji tego rozkładu. -Studenta, przy czym zaktualizowane hiperparametry, które pojawiają się w rozkładzie późniejszym, również bezpośrednio pojawiają późniejszy rozkład predykcyjny.
W niektórych przypadkach odpowiedni rozkład złożony jest definiowany przy użyciu innej parametryzacji niż ta, która byłaby najbardziej naturalna dla rozkładów predykcyjnych w bieżącym problemie. Często dzieje się tak dlatego, że wcześniejszy rozkład użyty do zdefiniowania rozkładu złożonego różni się od rozkładu użytego w bieżącym problemie. Na przykład, jak wskazano powyżej, rozkład t-Studenta zdefiniowano w kategoriach skalowanego rozkładu odwrotności chi-kwadrat umieszczonego na wariancji. Jednak częściej stosuje się odwrotny rozkład gamma jako koniugat wcześniejszy w tej sytuacji. Te dwa są w rzeczywistości równoważne, z wyjątkiem parametryzacji; stąd rozkład t-Studenta może być nadal używany do dowolnego rozkładu predykcyjnego, ale hiperparametry muszą zostać ponownie sparametryzowane przed podłączeniem.
W rodzinach wykładniczych
Większość, choć nie wszystkie, powszechnych rodzin rozkładów należy do rodziny rozkładów wykładniczych. Rodziny wykładnicze mają wiele przydatnych właściwości. Jedną z nich jest to, że wszyscy członkowie mają sprzężone rozkłady wcześniejsze, podczas gdy bardzo niewiele innych rozkładów ma sprzężone wcześniejsze rozkłady.
Wcześniejszy rozkład predykcyjny w rodzinach wykładniczych
Inną użyteczną właściwością jest to, że funkcję gęstości prawdopodobieństwa rozkładu złożonego odpowiadającą wcześniejszemu rozkładowi predykcyjnemu wykładniczego rozkładu rodziny marginalizowanego względem jego sprzężonego rozkładu wcześniejszego można wyznaczyć analitycznie. Załóżmy, że jest członkiem rodziny wykładniczej z parametrem z i jest
podczas gdy jest odpowiednim koniugatem wcześniej, rozłożonym jako
Następnie poprzedni rozkład predykcyjny (wynik złożenia ) H.
Ostatni wiersz wynika z poprzedniego, uznając, że funkcja wewnątrz całki jest funkcją gęstości zmiennej losowej o rozkładzie z wyłączeniem funkcji normalizującej . Zatem wynikiem całkowania będzie odwrotność funkcji normalizującej.
Powyższy wynik jest niezależny od wyboru parametryzacji , ponieważ żaden z nich nie jest , { i pojawia się . ( jest funkcją parametru i dlatego przybiera różne formy w zależności od wyboru parametryzacji.) Dla standardowych wyborów i często łatwiej jest pracować bezpośrednio ze zwykłymi parametrami, niż przepisywać je pod naturalnych .
Całkę można zastosować, ponieważ wymaga obliczenia stałej normalizacji gęstości określonej przez iloczyn wcześniejszego rozkładu i prawdopodobieństwa . Gdy oba są sprzężone , iloczyn jest rozkładem późniejszym i z założenia znana jest stała normalizacyjna tego rozkładu. Jak pokazano powyżej, funkcja gęstości rozkładu złożonego ma określoną postać, składającą się z iloczynu funkcji. która stanowi część funkcji gęstości dla z ilorazem dwóch form „stałej” normalizacji dla , jednej pochodzącej z a drugiego z rozkładu późniejszego Rozkład beta-dwumianowy jest dobrym przykładem działania tego procesu.
Pomimo analitycznej łatwości takich rozkładów, same w sobie zwykle nie należą do rodziny wykładniczej . Na przykład trzyparametrowy rozkład t-Studenta , rozkład beta-dwumianowy i rozkład wielomianowy Dirichleta są rozkładami predykcyjnymi rozkładów rodzin wykładniczych ( rozkład normalny , rozkład dwumianowy i rozkład wielomianowy , odpowiednio), ale żaden nie jest członkiem rodziny wykładniczej. ze względu na obecność na W rozkładzie rodziny wykładniczej musi istnieć możliwość rozdzielenia całej funkcji gęstości na czynniki multiplikatywne trzech typów: (1) czynniki zawierające tylko zmienne, (2) czynniki zawierające tylko parametry oraz (3) czynniki, których logarytm rozkłada się na czynniki między zmiennymi i parametry. Obecność sprawia, że jest to niemożliwe, chyba że funkcja „normalizująca” albo całkowicie ignoruje odpowiedni argument, albo używa go tylko w wykładniku wyrażenia.
Rozkład predykcyjny a posteriori w rodzinach wykładniczych
Gdy używany jest sprzężony rozkład predykcyjny, późniejszy rozkład predykcyjny należy do tej samej rodziny co wcześniejszy rozkład predykcyjny i jest wyznaczany po prostu przez wstawienie zaktualizowanych hiperparametrów późniejszej dystrybucji parametru(ów) do wzoru na wcześniejszy rozkład predykcyjny . Używając ogólnej postaci równań aktualizacji późniejszej dla rozkładów rodziny wykładniczej (zobacz odpowiednią sekcję w artykule o rodzinie wykładniczej ), możemy napisać wyraźny wzór na późniejszy rozkład predykcyjny:
Gdzie
Pokazuje to, że a posteriori rozkład predykcyjny serii obserwacji, w przypadku gdy obserwacje następują po rodzinie wykładniczej z odpowiednim koniugatem przed , ma taką samą gęstość prawdopodobieństwa jak rozkład złożony, z parametrami określonymi powyżej. Same obserwacje wpisuje się tylko w postaci
Nazywa się to statystyką wystarczającą obserwacji, ponieważ mówi nam wszystko, co musimy wiedzieć o obserwacjach, aby na ich podstawie obliczyć późniejszy lub późniejszy rozkład predykcyjny (lub, jeśli o to chodzi, cokolwiek innego opartego na prawdopodobieństwie wystąpienia obserwacje, takie jak prawdopodobieństwo krańcowe ).
Wspólny rozkład predykcyjny, prawdopodobieństwo krańcowe
Możliwe jest również rozważenie wyniku złożenia łącznego rozkładu na ustaloną liczbę niezależnych, identycznie rozłożonych próbek z wcześniejszym rozkładem na wspólnym parametrze. W układzie bayesowskim pojawia się to w różnych kontekstach: obliczaniu wcześniejszego lub późniejszego rozkładu predykcyjnego wielu nowych obserwacji oraz obliczaniu krańcowego prawdopodobieństwa zaobserwowanych danych (mianownik w prawie Bayesa ). Gdy rozkład próbek pochodzi z rodziny wykładniczej, a wcześniejszy rozkład jest sprzężony, powstały rozkład złożony będzie łatwy do przetworzenia i będzie miał formę podobną do powyższego wyrażenia. W rzeczywistości łatwo jest wykazać, że łączny rozkład złożony zbioru dla jest
Ten wynik i powyższy wynik dla pojedynczego rozkładu złożonego rozciągają się w trywialny sposób na przypadek rozkładu po obserwacji o wartościach wektorowych, takiej jak wielowymiarowy rozkład Gaussa .
Związek z próbkowaniem Gibbsa
Zwijanie węzła w zwiniętym próbniku Gibbsa jest równoznaczne ze składaniem . W rezultacie, gdy wszystkie niezależne, identycznie rozłożone (iid) węzły zależą od tego samego poprzedniego węzła, a węzeł ten jest zwinięty, powstałe prawdopodobieństwo warunkowe jednego węzła, biorąc pod uwagę pozostałe oraz rodziców zwiniętego węzła (ale nie uzależniając od innych węzłów, np. węzłów potomnych) jest taki sam, jak późniejszy rozkład predykcyjny wszystkich pozostałych węzłów iid (lub bardziej poprawnie, dawniej węzły iid, ponieważ zwijanie wprowadza zależności między węzłami). Oznacza to, że generalnie możliwe jest zaimplementowanie zwijania węzła po prostu poprzez dołączenie wszystkich rodziców węzła bezpośrednio do wszystkich dzieci i zastąpienie poprzedniego warunkowego rozkładu prawdopodobieństwa powiązany z każdym dzieckiem z odpowiadającym mu późniejszym rozkładem predykcyjnym dla dziecka uwarunkowanym jego rodzicami i innymi wcześniejszymi węzłami, które były również dziećmi usuniętego węzła. Na przykład bardziej szczegółowe omówienie i pewne przestrogi dotyczące pewnych trudnych kwestii można znaleźć w dotyczącym rozkładu wielomianowego Dirichleta .