Dolna granica logarytmu wiarygodności niektórych obserwowanych danych
W wariacyjnych metodach bayesowskich dolna granica dowodów ( często w skrócie ELBO , czasami nazywana również dolną granicą wariacyjną lub ujemną wariacyjną energią swobodną ) jest użyteczną dolną granicą logarytmu wiarygodności niektórych obserwowanych danych.
Terminologia i notacja
Niech i będą losowymi , rozłożonymi łącznie z rozkładem . Na przykład jest krańcowym rozkładem X i jest rozkładem warunkowym danego \ . Wtedy dla dowolnej próbki dowolnej dystrybucji }
Lewa strona nazywana jest
dowodem dla , a prawa strona nazywana jest
dla lub
ELBO Powyższą nierówność nazywamy
nierównością ELBO .
terminologii wariacyjnych bayesowskich nazywany terminu dowód w znaczeniu autorzy nazywają log -evidence , a niektórzy używają terminów dowód i log-evidence zamiennie.
Nie ma ogólnie ustalonej notacji dla ELBO. W tym artykule używamy
Motywacja
Wariacyjne wnioskowanie bayesowskie
mamy obserwowalną zmienną losową chcemy znaleźć jej prawdziwy . Umożliwiłoby nam to generowanie danych poprzez pobieranie próbek i szacowanie prawdopodobieństwa przyszłych zdarzeń. , nie można dokładnie znaleźć , dobrego przybliżenia .
definiujemy wystarczająco dużą rodzinę dla dla jakiejś funkcji straty . Jednym z możliwych sposobów rozwiązania tego problemu jest rozważenie niewielkiej zmienności od { rozwiązanie . Jest to problem rachunku wariacyjnego , dlatego nazywa się go metodą wariacyjną .
, takie jak rozkład normalny, rozkład Gumbela itp .
- Najpierw ukrytej losowej Zwykle wystarczy rozkład normalny lub rozkład jednostajny.
- Następnie zdefiniuj rodzinę skomplikowanych funkcji jak głęboka sieć neuronowa przez
-
sposób konwersji dowolnego rozkład . Na przykład niech mają dwa wyjścia, wtedy możemy zdefiniować odpowiedni rozkład po tym aby był rozkładem normalnym .
rodzinę wspólnych rozkładów Z . Próbkowanie jest bardzo łatwe : po prostu próbkuj , a następnie oblicz i wreszcie próbka przy użyciu .
Innymi słowy, mamy model generatywny zarówno dla obserwowalnego, jak i ukrytego. Teraz uważamy, że rozkład jest jeśli jest to bliskie przybliżenie : \
ponieważ rozkład po prawej stronie jest tylko większy
stronie musi marginalizować utajoną zmienną . Ogólnie rzecz biorąc, niemożliwe jest wykonanie całki
, zmuszając nas do wykonania kolejnego przybliżenia.
= wystarczy znaleźć dobre przybliżenie . zdefiniuj inną rodzinę dystrybucji jej do przybliżenia . Jest to model dyskryminacyjny dla utajonych.
Całą sytuację podsumowano w poniższej tabeli:
: obserwowalne |
|
: utajony |
przybliżony |
|
, łatwe |
|
, łatwe |
|
przybliżony |
|
, łatwe |
W języku bayesowskim obserwowany dowód, a to . P na { jest wcześniejszym rozkładem na , funkcja i rozkładem { displaystyle }
Biorąc pod uwagę obserwację , możemy wywnioskować , co prawdopodobnie doprowadziło do p . Zwykłą metodą bayesowską jest oszacowanie całki , a następnie oblicz według reguły Bayesa . Ogólnie jest to kosztowne do wykonania, ale jeśli możemy po prostu znaleźć dobre przybliżenie ( dla większości możemy tanio wywnioskować . Tak więc poszukiwanie dobrego nazywane wnioskowaniem .
Podsumowując, znaleźliśmy problem wariacyjnego wnioskowania bayesowskiego .
Wyprowadzenie ELBO
Podstawowym wynikiem wnioskowania wariacyjnego jest to, że minimalizacja dywergencji Kullbacka – Leiblera (rozbieżność KL) jest równoważna maksymalizacji logarytmu wiarygodności:
gdzie
to entropia
rozkładu rzeczywistego. Więc jeśli możemy zmaksymalizować
, możemy zminimalizować
iw konsekwencji znaleźć dokładne przybliżenie
.
( , po prostu próbkujemy wiele , a następnie używamy
Aby _ :
To zwykle nie ma zamkniętej formy i musi być oszacowane. Zwykłym sposobem szacowania całek jest
całkowanie Monte Carlo z
próbkowaniem ważności :
gdzie
rozkładem próbkowania
Monte
Widzimy x Displaystyle . Niestety nie nam Rzeczywiście, mamy przez nierówność Jensena ,
rzeczywistości wszystkie oczywiste estymatory
ile próbek bierzemy, mamy na podstawie nierówności Jensena:
Odejmując prawą stronę, widzimy, że problem sprowadza się do obciążonego estymatora równego zero:
Metodą
delta mamy
Jeśli będziemy to kontynuować, otrzymamy autoenkoder ważony ważnością. Ale wracamy do najprostszego przypadku z
}
Szczelność nierówności ma postać zamkniętą:
Otrzymaliśmy w ten sposób funkcję ELBO:
Maksymalizacja ELBO
Dla ustalonego równocześnie próbuje maksymalizować i minimalizować . Jeśli parametryzacja dla elastyczna, otrzymalibyśmy trochę \ , takie, że mamy jednocześnie
Od
mamy
a więc
Innymi słowy, maksymalizacja ELBO pozwoliłaby nam jednocześnie uzyskać dokładny model generatywny i dokładny model dyskryminacyjny
.
Główne formy
ELBO ma wiele możliwych wyrażeń, z których każde ma inny nacisk.
próbkujemy q jest
estymatorem .
dolną granicą dowodów i maksymalizacja ELBO w odniesieniu do
jest równoznaczne z minimalizacją dywergencji KL od
do
.
próbuje utrzymać bliskość i skoncentrować
na tych
które maksymalizują
. Oznacza to, że przybliżona
a
maksymalnego .
entropię na wysokim poziomie i skoncentrować się
na tych
które maksymalizują
. Oznacza to, że przybliżona tylna
w kierunku maksimum a .
Nierówność przetwarzania danych
bierzemy próbki z i w zbiorze danych , wtedy mamy rozkład empiryczny .
Dopasowanie do można zrobić, jak zwykle, maksymalizując logarytm :
Teraz, przez nierówność ELBO, możemy związać
, a zatem
Prawa strona upraszcza się do rozbieżności KL, a więc otrzymujemy:
Wynik ten można interpretować jako szczególny przypadek
nierówności przetwarzania danych .
re minimalizuje , co górnie ogranicza rzeczywistą wielkość zainteresowania poprzez nierówność przetwarzania danych. Oznacza to, że do przestrzeni obserwowalnej dołączamy utajoną przestrzeń, płacąc cenę słabszej nierówności w celu bardziej wydajnej obliczeniowo minimalizacji dywergencji KL.
Notatki