Nadrzędny

W statystyce bayesowskiej hiperprior jest wcześniejszą dystrybucją na hiperparametrze , to znaczy na parametrze wcześniejszej dystrybucji .

Podobnie jak w przypadku terminu hiperparametr, użycie hiperparametru ma na celu odróżnienie go od wcześniejszego rozkładu parametru modelu dla systemu bazowego. Powstają one zwłaszcza przy stosowaniu modeli hierarchicznych .

Na przykład, jeśli ktoś używa rozkładu beta do modelowania rozkładu parametru p rozkładu Bernoulliego , to:

  • Rozkład Bernoulliego (z parametrem p ) jest modelem systemu bazowego;
  • p jest parametrem systemu bazowego (rozkład Bernoulliego);
  • Rozkład beta (z parametrami α i β ) jest wcześniejszym rozkładem p ;
  • α i β to parametry rozkładu a priori (rozkład beta), stąd hiperparametry;
  • Wcześniejszy rozkład α i β jest zatem hiperpriorem.

W zasadzie można powtórzyć powyższe: jeśli sam hyperprior ma hiperparametry, można je nazwać hiperhiperparametrami i tak dalej.

Można analogicznie nazwać dystrybucję a posteriori hiperparametru hiperposteriorem, a jeśli należą one do tej samej rodziny, nazwać je hiperdystrybucjami sprzężonymi lub hiperpriorami sprzężonymi. Jednak szybko staje się to bardzo abstrakcyjne i oderwane od pierwotnego problemu.

Zamiar

Hiperpriory, podobnie jak koniugaty a priori, są wygodą obliczeniową – nie zmieniają procesu wnioskowania bayesowskiego, ale po prostu pozwalają łatwiej opisywać i obliczać z a priori.

Niepewność

Po pierwsze, użycie hiperprioru pozwala wyrazić niepewność w hiperparametrze: przyjęcie ustalonego a priori jest założeniem, zróżnicowanie hiperparametru a priori pozwala na przeprowadzenie analizy wrażliwości na tym założeniu, a przyjęcie rozkładu na tym hiperparametrze pozwala wyrazić niepewność w tym założeniu: „załóżmy, że a prior ma taką postać (ta rodzina parametryczna), ale że nie jesteśmy pewni, jakie dokładnie powinny być wartości parametrów”.

Dystrybucja mieszanki

Mówiąc bardziej abstrakcyjnie, jeśli użyje się hiperprioru, to wcześniejszy rozkład (na parametr modelu bazowego) sam w sobie jest gęstością mieszaniny : jest to średnia ważona różnych wcześniejszych rozkładów (w różnych hiperparametrach), przy czym hiperprior jest wagą . Dodaje to dodatkowe możliwe rozkłady (poza używaną rodziną parametryczną), ponieważ parametryczne rodziny rozkładów generalnie nie są zbiorami wypukłymi - ponieważ gęstość mieszaniny jest wypukłą kombinacją rozkładów, na ogół będzie leżeć poza rodzina. Na przykład mieszanina dwóch rozkładów normalnych nie jest rozkładem normalnym: jeśli weźmie się różne środki (wystarczająco odległe) i zmiesza 50% każdego z nich, otrzyma się rozkład bimodalny, który zatem nie jest normalny. W rzeczywistości wypukła powłoka rozkładów normalnych jest gęsta we wszystkich rozkładach, więc w niektórych przypadkach można dowolnie przybliżyć dany a prior, używając rodziny z odpowiednim hiperpriorem.

To, co sprawia, że ​​​​to podejście jest szczególnie przydatne, to użycie koniugatów a priori: poszczególne koniugaty a priori mają łatwe do obliczenia późniejsze, a zatem mieszanina koniugatów a priori jest tą samą mieszaniną a priori: wystarczy wiedzieć, w jaki sposób każda z koniugatów poprzedza zmiany. Użycie pojedynczego sprzężonego wcześniejszego może być zbyt restrykcyjne, ale użycie mieszaniny sprzężonych wcześniejszych może dać pożądany rozkład w postaci łatwej do obliczenia. Jest to podobne do dekompozycji funkcji pod względem funkcji własnych - patrz Koniugat przed: Analogia z funkcjami własnymi .

Układ dynamiczny

Hiperprior to rozkład w przestrzeni możliwych hiperparametrów. Jeśli ktoś używa koniugatów a priori, to ta przestrzeń jest zachowywana przez przejście do późniejszych – tak więc w miarę napływu danych rozkład zmienia się, ale pozostaje w tej przestrzeni: w miarę napływu danych rozkład ewoluuje jako system dynamiczny (każdy punkt przestrzeni hiperparametrów ewoluuje do zaktualizowanych hiperparametrów), zbiegając się w czasie, tak jak zbiega się sam przeor.

Dalsza lektura