Algorytm GHK

Algorytm GHK (Geweke, Hajivassiliou i Keane) jest ważną metodą próbkowania do symulacji prawdopodobieństw wyboru w wielowymiarowym modelu probitowym . Te symulowane prawdopodobieństwa można wykorzystać do odzyskania oszacowań parametrów z równania zmaksymalizowanej wiarygodności przy użyciu jednej ze zwykłych, dobrze znanych metod maksymalizacji ( metoda Newtona , BFGS itp.). Train ma dobrze udokumentowane kroki implementacji tego algorytmu dla wielomianowego modelu probitowego. To, co następuje tutaj, dotyczy binarnego wielowymiarowego modelu probitowego.

Rozważ przypadek, w którym próbuje się ocenić prawdopodobieństwo wyboru gdzie i gdzie możemy wybrać jako wybory i jako jednostki lub obserwacje, to średnia, a to macierz kowariancji modelu. Prawdopodobieństwo zaobserwowania wyboru wynosi

gdzie i

O ile nie jest ), nie ma rozwiązania w postaci zamkniętej dla całek zdefiniowanych powyżej (niektóre prace zostały wykonane z ). Alternatywą dla oceny tych całek w postaci zamkniętej lub metodami kwadraturowymi jest użycie symulacji. GHK to metoda symulacji służąca do symulacji powyższego prawdopodobieństwa przy użyciu metod próbkowania ważności.

Oceniając danych przepisać za pomocą faktoryzacji Cholesky'ego, . Daje to \ warunki są rozprowadzane .

na czynniki i faktu, że rozkłady są niezależne, można symulować losowania z obciętego wielowymiarowego rozkładu normalnego, używając losowań z jednowymiarowej losowej

, jeśli region obcięcia górne granice równe = ), wtedy zadanie staje się

Uwaga: zastępując :

Zmiana układu powyżej,

Teraz wszystko, co trzeba zrobić, to iteracyjnie wyciągnąć z obciętego jednowymiarowego rozkładu normalnego z podanymi powyżej granicami. Można to zrobić za pomocą odwrotnej metody CDF i zauważając, że obcięty rozkład normalny jest określony wzorem

Gdzie od 0 do 1, ponieważ powyższe jest CDF. Sugeruje to generowanie losowych losowań z obciętego rozkładu, który należy rozwiązać, aby dać ,

gdzie i i to normalny CDF. Za pomocą takich można zrekonstruować Cholesky'ego. Losowania te będą uzależnione od losowań poprzedzających i przy użyciu właściwości normalnych iloczyn warunkowych plików PDF będzie łączną dystrybucją ,

Gdzie normalnym

Ponieważ zależny od jest ograniczony do przez konfiguracji przy użyciu faktoryzacji Cholesky'ego to wiemy, że normalną Funkcja dystrybucji obciętej normalnej to:

Dlatego ma rozkład,

gdzie jest standardowym normalnym pdf do wyboru .

Ponieważ powyższa standaryzacja sprawia, że ​​każdy termin oznacza 0 wariancja 1.

mianownik licznik wielowymiarowym normalnym plikiem PDF.

Wracając do pierwotnego celu, aby ocenić

Korzystając z próbkowania ważności, możemy oszacować tę całkę,

j .