Estymator maksymalnej liczby punktów

W statystyce i ekonometrii estymator wyniku maksymalnego jest estymatorem nieparametrycznym dla modeli dyskretnych wyborów opracowanych przez Charlesa Manskiego w 1975 r. W przeciwieństwie do wielomianowych estymatorów probitowych i wielomianowych estymatorów logitowych, nie przyjmuje żadnych założeń dotyczących rozkładu nieobserwowalnej części użyteczności . Jednak jego właściwości statystyczne (zwłaszcza rozkład asymptotyczny ) są bardziej skomplikowane niż wielomianowe modele probit i logit, co utrudnia wnioskowanie statystyczne . Aby rozwiązać te problemy, Joel Horowitz zaproponował wariant, zwany wygładzonym estymatorem maksymalnego wyniku.

Ustawienie

Podczas modelowania problemów z wyborem dyskretnym zakłada się, że wybór jest determinowany przez porównanie leżącej u jego podstaw ukrytej użyteczności. Oznacz populację agentów jako T , a zbiór wspólnych wyborów dla każdego agenta jako C . Dla agenta jej wybór jako , co jest równe 1, ja jest wybrany, a 0 w przeciwnym razie. Załóżmy, że ukryta użyteczność jest liniowa w zmiennych objaśniających i występuje addytywny błąd odpowiedzi . Następnie dla agenta }

Displaystyle

gdzie i q -wymiarowymi obserwowalnymi współzmiennymi dotyczącymi agenta i wyboru, i i to czynniki wpływające na decyzję agenta, które nie są obserwowane przez ekonometryka. Konstrukcja obserwowalnych współzmiennych jest bardzo ogólna. Na przykład, jeśli C jest zbiorem różnych marek kawy, to zarówno agenta etniczne, jak i kawa i , takie jak cena, smak oraz to, czy jest lokalna, czy importowana. Zakładamy, że wszystkie składniki błędu są iid i musimy oszacować , który charakteryzuje wpływ różnych czynników na wybór agenta.

Estymatory parametryczne

, tak że parametr jest szacowany parametrycznie . Na przykład, jeśli zakłada się, że rozkład składnika błędu jest normalny, wówczas model jest po prostu wielomianowym modelem probitowym ; jeśli zakłada się, że jest to rozkład Gumbela , to model staje się wielomianowym modelem logitowym . Model parametryczny jest wygodny do obliczeń, ale może nie być spójny gdy rozkład składnika błędu jest błędnie określony.

Odpowiedź binarna

Załóżmy na przykład, że C zawiera tylko dwa elementy. Jest to ukryta reprezentacja użyteczności modelu wyboru binarnego . W tym modelu wybór jest następujący: , gdzie to dwa wektory współzmiennych wyjaśniających, i to błędy odpowiedzi id,

są ukrytą użytecznością wyboru opcji 1 i 2. Wtedy logarytmiczną funkcję wiarygodności można przedstawić jako:

Jeśli zostanie narzucone pewne założenie dystrybucyjne dotyczące błędu odpowiedzi, wówczas logarytmiczna funkcja wiarygodności będzie miała reprezentację w postaci zamkniętej. Na przykład, jeśli zakłada się, że błąd odpowiedzi ma rozkład jako: , to funkcję prawdopodobieństwa można przepisać jako: N ( , σ 2 ) {\ Displaystyle N (0, \ sigma ^ {2})}

gdzie jest funkcją dystrybucji ( ) dla standardowego rozkładu normalnego . Tutaj, nawet jeśli nie ma reprezentacji w postaci zamkniętej, jej pochodna To jest model probitowy .

Model ten opiera się na założeniu dystrybucyjnym dotyczącym składnika błędu odpowiedzi. Dodanie do modelu określonego założenia dotyczącego dystrybucji może sprawić, że model będzie wykonalny obliczeniowo ze względu na istnienie reprezentacji w postaci zamkniętej. Ale jeśli rozkład składnika błędu jest źle określony, oszacowania oparte na założeniu rozkładu będą niespójne.

Podstawową ideą modelu bez dystrybucji jest zastąpienie dwóch składników prawdopodobieństwa w funkcji logarytmu wiarygodności innymi wagami. Ogólną postać funkcji logarytmu wiarygodności można zapisać jako:

Estymator maksymalnej liczby punktów

Aby estymator był bardziej odporny na założenie o rozkładzie, Manski (1975) zaproponował nieparametryczny model do estymacji parametrów. W tym modelu oznacz liczbę elementów zbioru wyboru jako J , całkowitą liczbę agentów jako N , a to ciąg liczb rzeczywistych. Estymator maksymalnego wyniku jest zdefiniowany jako:

do jest rankingiem części pewności podstawowej użyteczności wyboru i . Intuicja w tym modelu polega na tym, że im wyższa pozycja w rankingu, tym większe znaczenie będzie przypisywane wyborowi.

W pewnych warunkach estymator maksymalnego wyniku może być słabo spójny , ale jego właściwości asymptotyczne są bardzo skomplikowane. Problem ten wynika głównie z niepłynności funkcji celu.

Przykład binarny

W kontekście binarnym estymator maksymalnej punktacji można przedstawić jako:

Gdzie

i stałymi w 0,1 Intuicja tego schematu ważenia polega na tym, że prawdopodobieństwo wyboru zależy od względnego rzędu pewnej części użyteczności.

Wygładzony estymator maksymalnej liczby punktów

Horowitz (1992) zaproponował wygładzony estymator wyniku maksymalnego (SMS), który ma znacznie lepsze właściwości asymptotyczne. niewygładzonej z wygładzoną. Zdefiniuj gładką funkcję jądra K spełniający następujące warunki:

  1. jest ograniczony liczbami rzeczywistymi
  2. i

Tutaj funkcja jądra jest analogiczna do CDF, którego PDF jest symetryczny wokół 0. Wtedy estymator SMS jest zdefiniowany jako:

gdzie jest ciągiem ściśle dodatnich liczb i . Tutaj intuicja jest taka sama, jak przy konstruowaniu tradycyjnego estymatora maksymalnego wyniku: agent jest bardziej skłonny wybrać wybór, który ma wyższą obserwowaną część użyteczności ukrytej. W pewnych warunkach wygładzony estymator maksymalnego wyniku jest spójny, a co ważniejsze, ma asymptotyczny rozkład normalny. Dlatego można zaimplementować wszystkie zwykłe testy statystyczne i wnioskowanie oparte na asymptotycznej normalności.

Dalsza lektura