Dolna granica dowodów

W wariacyjnych metodach bayesowskich dolna granica dowodów ( często w skrócie ELBO , czasami nazywana również dolną granicą wariacyjną lub ujemną wariacyjną energią swobodną ) jest użyteczną dolną granicą logarytmu wiarygodności niektórych obserwowanych danych.

Terminologia i notacja

Niech i będą losowymi , rozłożonymi łącznie z rozkładem . Na przykład jest krańcowym rozkładem X i jest rozkładem warunkowym danego \ . Wtedy dla dowolnej próbki dowolnej dystrybucji }

Lewa strona nazywana jest dowodem dla , a prawa strona nazywana jest dla lub ELBO Powyższą nierówność nazywamy nierównością ELBO .

terminologii wariacyjnych bayesowskich nazywany terminu dowód w znaczeniu autorzy nazywają log -evidence , a niektórzy używają terminów dowód i log-evidence zamiennie.

Nie ma ogólnie ustalonej notacji dla ELBO. W tym artykule używamy

Motywacja

Wariacyjne wnioskowanie bayesowskie

mamy obserwowalną zmienną losową chcemy znaleźć jej prawdziwy . Umożliwiłoby nam to generowanie danych poprzez pobieranie próbek i szacowanie prawdopodobieństwa przyszłych zdarzeń. , nie można dokładnie znaleźć , dobrego przybliżenia .

definiujemy wystarczająco dużą rodzinę dla dla jakiejś funkcji straty . Jednym z możliwych sposobów rozwiązania tego problemu jest rozważenie niewielkiej zmienności od { rozwiązanie . Jest to problem rachunku wariacyjnego , dlatego nazywa się go metodą wariacyjną .

, takie jak rozkład normalny, rozkład Gumbela itp .

  • Najpierw ukrytej losowej Zwykle wystarczy rozkład normalny lub rozkład jednostajny.
  • Następnie zdefiniuj rodzinę skomplikowanych funkcji jak głęboka sieć neuronowa przez
  • sposób konwersji dowolnego rozkład . Na przykład niech mają dwa wyjścia, wtedy możemy zdefiniować odpowiedni rozkład po tym aby był rozkładem normalnym .

rodzinę wspólnych rozkładów Z . Próbkowanie jest bardzo łatwe : po prostu próbkuj , a następnie oblicz i wreszcie próbka przy użyciu .

Innymi słowy, mamy model generatywny zarówno dla obserwowalnego, jak i ukrytego. Teraz uważamy, że rozkład jest jeśli jest to bliskie przybliżenie : \


ponieważ rozkład po prawej stronie jest tylko większy stronie musi marginalizować utajoną zmienną . Ogólnie rzecz biorąc, niemożliwe jest wykonanie całki , zmuszając nas do wykonania kolejnego przybliżenia.

= wystarczy znaleźć dobre przybliżenie . zdefiniuj inną rodzinę dystrybucji jej do przybliżenia . Jest to model dyskryminacyjny dla utajonych.

Całą sytuację podsumowano w poniższej tabeli:

: obserwowalne : utajony
przybliżony , łatwe
, łatwe
przybliżony , łatwe

W języku bayesowskim obserwowany dowód, a to . P na { jest wcześniejszym rozkładem na , funkcja i rozkładem { displaystyle }

Biorąc pod uwagę obserwację , możemy wywnioskować , co prawdopodobnie doprowadziło do p . Zwykłą metodą bayesowską jest oszacowanie całki , a następnie oblicz według reguły Bayesa . Ogólnie jest to kosztowne do wykonania, ale jeśli możemy po prostu znaleźć dobre przybliżenie ( dla większości możemy tanio wywnioskować . Tak więc poszukiwanie dobrego nazywane wnioskowaniem .

Podsumowując, znaleźliśmy problem wariacyjnego wnioskowania bayesowskiego .

Wyprowadzenie ELBO

Podstawowym wynikiem wnioskowania wariacyjnego jest to, że minimalizacja dywergencji Kullbacka – Leiblera (rozbieżność KL) jest równoważna maksymalizacji logarytmu wiarygodności:

gdzie to entropia rozkładu rzeczywistego. Więc jeśli możemy zmaksymalizować , możemy zminimalizować iw konsekwencji znaleźć dokładne przybliżenie .

( , po prostu próbkujemy wiele , a następnie używamy

Aby _ :

To zwykle nie ma zamkniętej formy i musi być oszacowane. Zwykłym sposobem szacowania całek jest całkowanie Monte Carlo z próbkowaniem ważności :
gdzie rozkładem próbkowania Monte

Widzimy x Displaystyle . Niestety nie nam Rzeczywiście, mamy przez nierówność Jensena ,

rzeczywistości wszystkie oczywiste estymatory ile próbek bierzemy, mamy na podstawie nierówności Jensena:
Odejmując prawą stronę, widzimy, że problem sprowadza się do obciążonego estymatora równego zero:
Metodą delta mamy
Jeśli będziemy to kontynuować, otrzymamy autoenkoder ważony ważnością. Ale wracamy do najprostszego przypadku z }
Szczelność nierówności ma postać zamkniętą:
Otrzymaliśmy w ten sposób funkcję ELBO:

Maksymalizacja ELBO

Dla ustalonego równocześnie próbuje maksymalizować i minimalizować . Jeśli parametryzacja dla elastyczna, otrzymalibyśmy trochę \ , takie, że mamy jednocześnie

Od
mamy
a więc
Innymi słowy, maksymalizacja ELBO pozwoliłaby nam jednocześnie uzyskać dokładny model generatywny i dokładny model dyskryminacyjny .

Główne formy

ELBO ma wiele możliwych wyrażeń, z których każde ma inny nacisk.

próbkujemy q jest estymatorem .
dolną granicą dowodów i maksymalizacja ELBO w odniesieniu do jest równoznaczne z minimalizacją dywergencji KL od do .
próbuje utrzymać bliskość i skoncentrować na tych które maksymalizują . Oznacza to, że przybliżona a maksymalnego .
entropię na wysokim poziomie i skoncentrować się na tych które maksymalizują . Oznacza to, że przybliżona tylna w kierunku maksimum a .

Nierówność przetwarzania danych

bierzemy próbki z i w zbiorze danych , wtedy mamy rozkład empiryczny .

Dopasowanie do można zrobić, jak zwykle, maksymalizując logarytm :

Teraz, przez nierówność ELBO, możemy związać , a zatem
Prawa strona upraszcza się do rozbieżności KL, a więc otrzymujemy:
Wynik ten można interpretować jako szczególny przypadek nierówności przetwarzania danych .

re minimalizuje , co górnie ogranicza rzeczywistą wielkość zainteresowania poprzez nierówność przetwarzania danych. Oznacza to, że do przestrzeni obserwowalnej dołączamy utajoną przestrzeń, płacąc cenę słabszej nierówności w celu bardziej wydajnej obliczeniowo minimalizacji dywergencji KL.

  1. ^ Kingma, Diederik P.; Welling, Max (2014-05-01). „Automatyczne kodowanie wariacyjne Bayesa” . arXiv : 1312.6114 [ stat.ML ].
  2. ^ Burda, Jurij; Grosse, Roger; Salakhutdinov, Rusłan (2015-09-01). „Autoenkodery ważone ważnością” . {{ cite journal }} : Cite journal wymaga |journal= ( pomoc )
  3. ^   Kingma, Diederik P.; Welling, Max (2019-11-27). „Wprowadzenie do autoenkoderów wariacyjnych” . Podstawy i trendy w uczeniu maszynowym . 12 (4). Sekcja 2.7. ar Xiv : 1906.02691 . doi : 10.1561/2200000056 . ISSN 1935-8237 .

Notatki