Przybliżenie Vecchia

Przybliżenie Vecchia to technika aproksymacji procesów Gaussa , pierwotnie opracowana przez Aldo Vecchię, statystyka z United States Geological Survey . Jest to jedna z najwcześniejszych prób wykorzystania procesów Gaussa w ustawieniach wielowymiarowych. Od tego czasu został szeroko uogólniony, dając początek wielu współczesnym przybliżeniom.

Intuicja

Wspólny rozkład prawdopodobieństwa dla zdarzeń $,$ oznaczonych można wyrazić $\ Displaystyle P (A, B,$ $)$ Jak

, B, C) = P (A) P (B | A) P (C|A,B)}

Przybliżenie Vecchii ma postać np.

{\ Displaystyle P (A, B, C) \ około P (A) P (B | A) P

$displaystyle$ dokładny, gdy zdarzenia $ZA$ są bliskie warunkowo niezależnej, biorąc pod uwagę wiedzę o $A}$ . Oczywiście można było alternatywnie wybrać przybliżenie

{\ Displaystyle P (A, B, C) \ około P (A) P (B | A) P

więc użycie przybliżenia wymaga pewnej wiedzy o tym, które zdarzenia są bliskie warunkowo niezależnych, biorąc pod uwagę inne. Co więcej, mogliśmy wybrać na przykład inną kolejność

{\ Displaystyle P (A, B, C) \ około P (C) P (C | A) P (B | A).}

Na szczęście w wielu przypadkach istnieją dobre heurystyki, które decydują o tym, jak skonstruować przybliżenie.

Mówiąc bardziej technicznie, ogólne wersje przybliżenia prowadzą do rzadkiego czynnika Cholesky'ego w macierzy precyzji. Użycie standardowej faktoryzacji Cholesky'ego daje wpisy, które można interpretować jako korelacje warunkowe z zerami wskazującymi na brak niezależności (ponieważ model jest gaussowski). Te relacje niezależności można alternatywnie wyrazić za pomocą modeli graficznych i istnieją twierdzenia łączące strukturę grafu i uporządkowanie wierzchołków z zerami we współczynniku Cholesky'ego. W szczególności wiadomo, że zależności zakodowane w grafie moralnym prowadzą do czynników Cholesky'ego macierzy precyzji, które nie mają wypełnienia .

Opis formalny

Problem

Niech $będzie$ procesem Gaussa indeksowanym przez funkcję $i$ funkcję kowariancji $K$ $\ displaystyle$ . Załóżmy, że ${\ Displaystyle S = \ {s_ {1}, \ kropki, s_ {n} \} \ podzbiór {\ mathcal {S}}}$ jest skończonym podzbiorem S {\ Displaystyle {\ mathcal {S $}}$ x ${\ Displaystyle \ mathbf {x} = (x_ {1}, \ kropki, x_ {n}})}$ wektorem wartości ${\ Displaystyle x}$ oceniane na , $s$ . ${\ Displaystyle x_ {i} = x (s_ {i})}$ dla $kropki ,n}$ ${\ Displaystyle i = 1,$ . Załóżmy dalej, że obserwuje się ${\ Displaystyle \ mathbf {y} = (y_ {1}, \ kropki, y_ {n})}$ gdzie ${\ Displaystyle y_ {i} = x_ {i} + \ varepsilon _ {i}}$ z ${\ Displaystyle \ varepsilon _ {i} {\ overset {\ tekst {iid}} {\sim}}{\mathcal {N}}(0,\sigma ^{2})}$ . W tym kontekście dwa najczęstsze zadania wnioskowania obejmują ocenę prawdopodobieństwa

{\ Displaystyle {\ mathcal {L}} (\ mathbf {y}) = \ int f (\ mathbf {y} \ mathbf {x}) \ ,d\mathbf {x} ,}

lub przewidywanie wartości dla s $}}$ $Displaystyle s ^ {*} \ in {\ mathcal {S$ i ${\ Displaystyle s \ nie \ w S$ } czyli obliczenie

{\ Displaystyle f (x (s ^ {*}) \ mid y_ {1}, \ kropki, y_ {n}).}

Oryginalna receptura

Oryginalna metoda Vecchia zaczyna się od obserwacji, że wspólna gęstość obserwacji ${\ Displaystyle f (\ mathbf {y}) = \ lewo (y_ {1}, \ kropki ,y_{n}\right)}$ można zapisać jako iloczyn rozkładów warunkowych

{\ Displaystyle f (\ mathbf {y}) = f (y_ {1}) \ prod _ {i = 2} ^ {n} f (y_ {i} \ mid y_ {i-1}, \ kropki, y_ {1}).}

Przybliżenie Vecchia zakłada zamiast tego, że dla niektórych ${\ Displaystyle k \ ll n}$

{\ Displaystyle {\ kapelusz {f}} (\ mathbf {y}) = f (y_ {1}) \ prod _ {i = 2} ^ {n} f (y_ {i} \ mid y_ {i-1 },\kropki ,y_{\max(ik,1)}).}

Vecchia zasugerował również, aby powyższe przybliżenie zastosować do obserwacji, które są uporządkowane leksykograficznie przy użyciu ich współrzędnych przestrzennych. Chociaż jego prosta metoda ma wiele słabości, zmniejszyła złożoność obliczeniową do ${\ Displaystyle {\ mathcal {O}} (nk ^ {3})}$ . Wiele z jego braków zostało rozwiązanych przez późniejsze uogólnienia.

Ogólne sformułowanie

Choć koncepcyjnie proste, założenie przybliżenia Vecchii często okazuje się dość restrykcyjne i niedokładne. To zainspirowało ważne uogólnienia i ulepszenia wprowadzone w wersji podstawowej na przestrzeni lat: włączenie ukrytych zmiennych, bardziej wyrafinowane warunkowanie i lepsze uporządkowanie. Różne szczególne przypadki ogólnego przybliżenia Vecchia można opisać w kategoriach sposobu wybierania tych trzech elementów.

Zmienne ukryte

$formie$ rozszerzenia metody Vecchia w jej ${\ Displaystyle \ mathbf {z} = (z_ {1}, \ kropki, z_ {n})}$ z tak jak w poprzedniej sekcji

{\ Displaystyle f (\ mathbf {z}) = f (x_ {1}, y_ {1}) \ lewo (\ prod _ {i = 2} ^ {n} f (x_ {i} \ mid z_ {1 :i-1})\right)\left(\prod _{i=2}^{n}f(y_{i}\mid x_{i})\right)}

ponieważ biorąc pod uwagę $displaystyle$ zmienne są niezależne od $y_ {i}}$ .

Zamawianie

Powszechnie zauważono, że oryginalne uporządkowanie leksykograficzne oparte na współrzędnych, gdy $jest$ , daje słabe wyniki. Niedawno zaproponowano inne uporządkowania, z których niektóre zapewniają, że punkty są uporządkowane w sposób quasi-losowy. Wysoce skalowalne, wykazano również, że drastycznie poprawiają dokładność.

Kondycjonowanie

Podobnie jak w wersji podstawowej opisanej powyżej, dla danego uporządkowania ogólne przybliżenie Vecchia można zdefiniować jako

{\ Displaystyle {\ kapelusz {f}} (\ mathbf {z}) = f (x_ {1}, y_ {1}) \ lewo (\ prod _ {i = 2} ^ {n} f (x_ {i }\mid z_{q(i)})\right)\left(\prod _{i=2}^{n}f(y_{i}\mid x_{i})\right),}

gdzie ${\ Displaystyle q (i) \ podzbiór \ lewo \ {1, \ kropki, i-1 \ prawo \}}$ . Ponieważ ${\ Displaystyle y_ {i} \ sprawca x_ {-i}, y_ {-i} \ mid x_ {i}}$ wynika, że ${\ Displaystyle f (x_ {i} \ mid z_ {q (i)}) = f(x_{i}\mid x_{q}(i),y_{q}(i))=f(x_{i}\mid x_{q}(i))} ponieważ sugeruje, że$ wyrazy ${\ Displaystyle f (x_ {i} \ mid z_ {q (i)}}}$ zastąpić ${\ Displaystyle f (x_ {i} \ mid x_ {q (i )})}$ . Okazuje się jednak, że czasami warunkowanie niektórych obserwacji $($ rzadkość czynnika Cholesky'ego macierzy precyzji $\ mathbf {x}, \mathbf {y} )}$ . Dlatego zamiast tego można rozważyć zbiory ${\ Displaystyle q_ {y} (i)}$ i ${\ Displaystyle q_ {x} (i)}$ takie, że ${\ Displaystyle q (i) = q_ {y} (i) \ kubek q_ {x} (i)} i$ wyrazić ${\ Displaystyle {\ kapelusz {f}}}$ jak

{\ Displaystyle {\ kapelusz {f}} (\ mathbf {z}) = f (x_ {1}, y_ {1}) \ lewo (\ prod _ {i = 2} ^ {n} f (x_ {i }\mid x_{q_{x}(i)},y_{q_{y}(i)})\right)\left(\prod _{i=2}^{n}f(y_{i}\ środek x_{i})\prawo).}

$_$ wyboru i $($ _ NNGP), siatkowy proces Gaussa i podejście aproksymacji wielu rozdzielczości (MRA) przy użyciu ${\ Displaystyle q (i) = q_ {x} (i)}$ , standardowe Vecchia przy użyciu ${\ Displaystyle q (i) = q_ {y} (i)}$ i rzadki generał Vecchia, gdzie zarówno ${\ Displaystyle q_ {y} (i)},$ jak i ${\ displaystyle q_ {x} (i)}$ nie są puste.

Oprogramowanie

Opracowano kilka pakietów, które implementują niektóre warianty przybliżenia Vecchia.

GPvecchia to pakiet R dostępny przez CRAN (język programowania R), który implementuje większość wersji przybliżenia Vecchia
GpGp to pakiet R dostępny przez CRAN (język programowania R) , który implementuje skalowalną metodę porządkowania problemów przestrzennych, co znacznie poprawia dokładność.
spNNGP to pakiet R dostępny przez CRAN (język programowania R), który implementuje ukryte przybliżenie Vecchia
pyMRA to pakiet Pythona dostępny przez pyPI implementujący aproksymację wielu rozdzielczości, specjalny przypadek ogólnej metody Vecchia używanej w dynamicznych modelach przestrzeni stanów
meshed to pakiet R dostępny przez CRAN (język programowania R) , który implementuje wielowymiarowe przestrzenne lub czasoprzestrzenne modele regresji wielowymiarowej Bayesa oparte na utajonym procesie Meshed Gaussa (MGP) przy użyciu przybliżeń Vecchia w partycjonowanych domenach

Notatki