Kwadratura Bayesa to popularna w statystyce i uczeniu maszynowym metoda całkowania numerycznego
Kwadratura bayesowska to metoda aproksymacji trudnych problemów integracyjnych. Należy do klasy probabilistycznych metod numerycznych . Kwadratura bayesowska postrzega całkowanie numeryczne jako wnioskowania bayesowskiego , w którym oceny funkcji są używane do oszacowania całki tej funkcji. Z tego powodu czasami określa się to również jako „bayesowską probabilistyczną całkę numeryczną” lub „bayesowską całkę numeryczną”. Nazwa „kubatura bayesowska” jest czasami używana, gdy całka jest wielowymiarowa. Potencjalną zaletą tego podejścia jest to, że zapewnia ono probabilistyczną kwantyfikację niepewności dla wartości całki.
Niech będzie funkcją zdefiniowaną w domenie (gdzie zazwyczaj . W całkowaniu numerycznym oceny funkcji w różnych lokalizacjach in są używane do oszacowania całki z miary : czyli wagi , reguła kwadraturowa jest estymatorem postaci postaci
na określeniu wcześniejszego rozkładu po , warunkowaniu tego wcześniejszego na , aby uzyskać rozkład a posteriori następnie obliczyć domniemany rozkład a posteriori na . Nazwa „kwadratura” pochodzi z faktu, że późniejsza średnia przyjmuje postać reguły kwadraturowej, której wagi są określane
Kwadratura bayesowska z procesami gaussowskimi
Najczęstszym wyborem rozkładu wcześniejszego jest proces Gaussa ponieważ pozwala to na sprzężone w celu rozkładu późniejszego w postaci mamy proces Gaussa z wcześniejszą funkcją średnią funkcją kowariancji ) . Następnie rozkład późniejszy na jest procesem Gaussa ze średnią i jądrem k podane przez:
gdzie , , i .
rozkład późniejszy na jest jednowymiarowym rozkładem Gaussa ze średnią i mi ] { podane przez
ν jest średnim osadzeniem i oznacza całkę odniesieniu do obu wejść W szczególności zauważ, że późniejsza średnia jest regułą kwadraturową z wagami użytkownika niepewność co do wartości .
W trudniejszych problemach integracyjnych, w których nie można polegać na wcześniejszym rozkładzie jako znaczącej reprezentacji niepewności epistemicznej, konieczne jest użycie danych do ustawienia hiperparametrów jądra przy użyciu, na przykład, oszacowania największej wiarygodności . Estymacja hiperparametrów jądra wprowadza adaptacyjność do kwadratury bayesowskiej.
Przykład
ν gdzie . Rozkład późniejszy (niebieski) koncentruje się na całce prawdziwej, gdy uzyskuje się więcej danych (czerwone punkty) całki .
Rozważ oszacowanie całki
zerowym procesie Gaussa wcześniej z funkcją kowariancji Matérna gładkości i długości korelacji . Ta funkcja kowariancji to Obliczenie tego jest proste (choć żmudne).
oszacowania punktu kwadraturowego Bayesa masy, określone , wokół całki prawdziwej jest w coraz większej liczbie punktów jest wyświetlany w załączonym animacja.
Pozwala na kwantyfikację niepewności i propagację jej we wszystkich kolejnych obliczeniach w celu jawnego modelowania wpływu błędu numerycznego.
Zapewnia pryncypialny sposób włączenia wcześniejszej wiedzy za pomocą rozsądnego wyboru wcześniejszych rozkładów dla mogą być bardziej wyrafinowane w porównaniu z opisanym właśnie standardowym procesem Gaussa.
Pozwala na efektywniejsze wykorzystanie informacji, np. wspólne wnioskowanie o wielu powiązanych ze sobą wielkościach lub wykorzystanie aktywnego uczenia się w celu zmniejszenia wymaganej liczby punktów.
Pomimo tych zalet metody kwadraturowe Bayesa mają następujące ograniczenia:
pryncypialne traktowanie kwantyfikacji niepewności, późniejsze wnioskowanie o wykonalne, co wymaga oszacowania drugiego poziomu z procesami Gaussa oznacza _ i zmierzyć .
ogólnie względu na koszt odwrócenia macierze, które mogą przeciwstawiać się ich zastosowaniu do problemów na dużą skalę.
Projekt algorytmiczny
Wcześniejsze dystrybucje
Najczęściej używanym wcześniejszym dla proces Gaussa. Wynika to głównie z zalet koniugacji Gaussa i faktu, że procesy Gaussa mogą kodować szeroki zakres wcześniejszej wiedzy, w tym gładkość, okresowość i rzadkość, poprzez staranny wybór wcześniejszej kowariancji. Jednak zaproponowano również szereg innych wcześniejszych dystrybucji. Obejmuje to wielowyjściowe procesy Gaussa , które są szczególnie przydatne podczas lub sekwencyjnego rozwiązywania wielu powiązanych zadań całkowania numerycznego, oraz oparte na drzewach priorytety, takie jak drzewa regresji addytywnej bayesowskiej , które dobrze nadają się do . Dodatkowo zaproponowano również priorytety procesów Dirichleta dla miary integracji .
Wybór punktu
Punkty późniejszy punkt koncentruje się szybciej. Jedno podejście polega na użyciu zestawów punktów z innych reguł kwadraturowych. Na przykład wzięcie niezależnych i identycznie rozłożonych realizacji z odzyskuje bayesowskie podejście do Monte Carlo podczas gdy użycie pewnych deterministycznych zestawów punktów, takich jak sekwencje o niskiej rozbieżności lub sieci, przywraca bayesowską alternatywę dla quasi-Monte . Oczywiście możliwe jest również użycie zestawów punktów zaprojektowanych specjalnie dla kwadratury Bayesa; patrz na przykład praca tego, kto wykorzystał symetrie w zbiorach punktów, aby uzyskać skalowalne estymatory kwadraturowe Bayesa. Alternatywnie, punkty można również wybierać adaptacyjnie, zgodnie z zasadami aktywnego uczenia się i eksperymentalnego projektowania bayesowskiego , aby bezpośrednio zminimalizować późniejszą niepewność, w tym dla wielowyjściowych procesów Gaussa.
Średnia jądra i błąd początkowy
bayesowskiej jest potrzeba oszacowania funkcji i stałej . Ta pierwsza jest powszechnie nazywana średnią jądra i jest wielkością, która jest kluczem do obliczania odległości opartych na jądrze, takich jak maksymalna średnia rozbieżność. Ten ostatni jest powszechnie nazywany błędem początkowym, ponieważ zapewnia górną granicę błędu całkowania, zanim zostaną zaobserwowane jakiekolwiek wartości funkcji. tylko dla niewielkiej liczby par patrz na przykład Tabela 1 w.
Teoria
Wyprowadzono szereg teoretycznych gwarancji dla kwadratury bayesowskiej. Zwykle wymagają one właściwości gładkości Sobolewa całki, chociaż ostatnie prace obejmują również całki w odtwarzającej się przestrzeni Hilberta jądra Gaussa jądra. Większość wyników odnosi się do przypadku Monte Carlo lub deterministycznych zestawów punktów siatki, ale niektóre wyniki dotyczą również projektów adaptacyjnych.
Oprogramowanie
ProbNum : probabilistyczne metody numeryczne w Pythonie, w tym implementacja kwadratury Bayesa.
Emukit : Emulacja i podejmowanie decyzji w warunkach niepewności w Pythonie.
QMCPy : kwadratura bayesowska z zestawami punktów QMC w Pythonie.