Metoda doboru próby ważności
Algorytm GHK (Geweke, Hajivassiliou i Keane) jest ważną metodą próbkowania do symulacji prawdopodobieństw wyboru w wielowymiarowym modelu probitowym . Te symulowane prawdopodobieństwa można wykorzystać do odzyskania oszacowań parametrów z równania zmaksymalizowanej wiarygodności przy użyciu jednej ze zwykłych, dobrze znanych metod maksymalizacji ( metoda Newtona , BFGS itp.). Train ma dobrze udokumentowane kroki implementacji tego algorytmu dla wielomianowego modelu probitowego. To, co następuje tutaj, dotyczy binarnego wielowymiarowego modelu probitowego.
Rozważ przypadek, w którym próbuje się ocenić prawdopodobieństwo wyboru gdzie i gdzie możemy wybrać jako wybory i jako jednostki lub obserwacje, to średnia, a to macierz kowariancji modelu. Prawdopodobieństwo zaobserwowania wyboru wynosi
gdzie i
O ile nie jest ), nie ma rozwiązania w postaci zamkniętej dla całek zdefiniowanych powyżej (niektóre prace zostały wykonane z ). Alternatywą dla oceny tych całek w postaci zamkniętej lub metodami kwadraturowymi jest użycie symulacji. GHK to metoda symulacji służąca do symulacji powyższego prawdopodobieństwa przy użyciu metod próbkowania ważności.
Oceniając danych przepisać za pomocą faktoryzacji Cholesky'ego, . Daje to \ warunki są rozprowadzane .
na czynniki i faktu, że rozkłady są niezależne, można symulować losowania z obciętego wielowymiarowego rozkładu normalnego, używając losowań z jednowymiarowej losowej
, jeśli region obcięcia górne granice równe = ), wtedy zadanie staje się
Uwaga: zastępując :
Zmiana układu powyżej,
Teraz wszystko, co trzeba zrobić, to iteracyjnie wyciągnąć z obciętego jednowymiarowego rozkładu normalnego z podanymi powyżej granicami. Można to zrobić za pomocą odwrotnej metody CDF i zauważając, że obcięty rozkład normalny jest określony wzorem
Gdzie od 0 do 1, ponieważ powyższe jest CDF. Sugeruje to generowanie losowych losowań z obciętego rozkładu, który należy rozwiązać, aby dać ,
gdzie i i to normalny CDF. Za pomocą takich można zrekonstruować Cholesky'ego. Losowania te będą uzależnione od losowań poprzedzających i przy użyciu właściwości normalnych iloczyn warunkowych plików PDF będzie łączną dystrybucją ,
Gdzie normalnym
Ponieważ zależny od jest ograniczony do przez konfiguracji przy użyciu faktoryzacji Cholesky'ego to wiemy, że normalną Funkcja dystrybucji obciętej normalnej to:
Dlatego ma rozkład,
gdzie jest standardowym normalnym pdf do wyboru .
Ponieważ powyższa standaryzacja sprawia, że każdy termin oznacza 0 wariancja 1.
mianownik licznik wielowymiarowym normalnym plikiem PDF.
Wracając do pierwotnego celu, aby ocenić
Korzystając z próbkowania ważności, możemy oszacować tę całkę,
j .