Odwrotne ważenie prawdopodobieństwa

Odwrotne ważenie prawdopodobieństwa to technika statystyczna służąca do obliczania statystyk standaryzowanych dla pseudopopulacji innej niż ta, w której zebrano dane. Projekty badań z odmienną populacją doboru próby i populacją docelowej wnioskowania (populacja docelowa) są często stosowane. Mogą istnieć czynniki uniemożliwiające naukowcom bezpośrednie pobieranie próbek z populacji docelowej, takie jak koszty, czas lub kwestie etyczne. Rozwiązaniem tego problemu jest zastosowanie alternatywnej strategii projektowania, np. próbkowanie warstwowe . Prawidłowo zastosowane ważenie może potencjalnie poprawić wydajność i zmniejszyć błąd systematyczny estymatorów nieważonych.

Jednym z bardzo wczesnych estymatorów ważonych jest estymator średniej Horvitza-Thompsona . Gdy znane jest prawdopodobieństwo próbkowania , z którego losowana jest populacja losowana z populacji docelowej, wówczas do ważenia obserwacji stosuje się odwrotność tego prawdopodobieństwa. Podejście to zostało uogólnione na wiele aspektów statystyki w różnych ramach. W szczególności istnieją ważone prawdopodobieństwa , ważone równania estymujące i ważone gęstości prawdopodobieństwa z których pochodzi większość statystyk. Aplikacje te skodyfikowały teorię innych statystyk i estymatorów, takich jak krańcowe modele strukturalne , standaryzowany współczynnik śmiertelności oraz algorytm EM dla danych zgrubnych lub zagregowanych.

Odwrotne ważenie prawdopodobieństwa jest również stosowane w celu uwzględnienia brakujących danych, gdy osoby z brakującymi danymi nie mogą zostać uwzględnione w analizie pierwotnej. Dzięki oszacowaniu prawdopodobieństwa pobierania próbek lub prawdopodobieństwa, że ​​czynnik zostanie zmierzony w innym pomiarze, odwrotne ważenie prawdopodobieństwa może być użyte do zawyżenia wagi osób, które są niedostatecznie reprezentowane ze względu na duży stopień brakujących danych .

Estymator ważony odwrotnym prawdopodobieństwem (IPWE)

Odwrotny estymator ważenia prawdopodobieństwa może być użyty do wykazania przyczynowości, gdy badacz nie może przeprowadzić kontrolowanego eksperymentu, ale zaobserwował dane do modelowania. Ponieważ zakłada się, że leczenie nie jest przydzielane losowo, celem jest oszacowanie scenariusza alternatywnego lub potencjalnego wyniku, gdyby wszystkim pacjentom w populacji przydzielono którekolwiek leczenie.

Załóżmy, że obserwowane dane to wylosowano id (niezależny i identycznie rozłożony) z nieznanego rozkładu P, gdzie

  • współzmienne
  • to dwa możliwe sposoby leczenia.
  • odpowiedź
  • Nie zakładamy, że leczenie jest przydzielane losowo.

jest oszacowanie potencjalnego wyniku, podmiotowi przypisano leczenie . Następnie porównaj średni wynik, jeśli wszystkim pacjentom w populacji przypisano dowolne leczenie: . Chcemy oszacować używając zaobserwowanych danych .

Formuła estymatora

Budowa IPWE

  1. gdzie
  2. p lub przy użyciu dowolnego modelu skłonności (często model regresji logistycznej)

Po obliczeniu średniej z każdej leczonej grupy można zastosować statystyczny test t lub test ANOVA do oceny różnicy między średnimi grup i określenia istotności statystycznej efektu leczenia.

Założenia

wspólny model prawdopodobieństwa współzmiennej , akcji i odpowiedzi . Jeśli i są znane jako i odpowiednio, wtedy odpowiedź ma rozkład Y

Przyjmujemy następujące założenia.

  • ( A1 ) Spójność:
  • ( A2 ) Brak niezmierzonych czynników zakłócających: . Bardziej formalnie, dla każdej i mierzalnej funkcji i }
    Oznacza to, że przypisanie leczenia opiera się wyłącznie na danych współzmiennych i jest niezależne od potencjalnych wyników.
  • ( A3 ) Pozytywność: dla wszystkich x .

Wyprowadzenie formalne

Przy założeniach ( A1 )-( A3 ) wyprowadzimy następujące tożsamości

Pierwsza równość wynika z definicji i ( A1 ). W przypadku drugiej równości najpierw użyj iterowanego oczekiwania do zapisu

Przez ( A3 ), prawie Następnie używając ( A2 ), zanotuj to

Stąd całkowanie ostatniego wyrażenia w następuje druga równość w

Ograniczenia

Estymator ważony odwrotnym prawdopodobieństwem (IPWE) może być niestabilny, jeśli oszacowane skłonności są małe. Jeśli prawdopodobieństwo przypisania któregokolwiek leczenia jest małe, model regresji logistycznej może stać się niestabilny wokół ogonów, powodując, że IPWE będzie również mniej stabilny.

Estymator ważony rozszerzonym prawdopodobieństwem odwrotnym (AIPWE)

Alternatywnym estymatorem jest rozszerzony estymator ważony odwrotnym prawdopodobieństwem (AIPWE), który łączy w sobie zarówno właściwości estymatora opartego na regresji, jak i estymatora ważonego odwrotnym prawdopodobieństwem. Jest to zatem metoda „podwójnie solidna”, ponieważ wymaga jedynie poprawnego określenia modelu skłonności lub modelu wyniku, ale nie obu jednocześnie. Ta metoda rozszerza IPWE w celu zmniejszenia zmienności i poprawy wydajności oszacowania. Model ten ma te same założenia, co estymator ważony odwrotnym prawdopodobieństwem (IPWE).

Formuła estymatora

Z następującymi oznaczeniami:

  1. jest funkcją wskaźnika , jeśli podmiot i jest częścią grupy terapeutycznej a (lub nie).
  2. Skonstruuj aby podstawie współzmiennych leczenie dla jakiegoś tematu ja. Na przykład przy użyciu zwykłej regresji metodą najmniejszych kwadratów.
  3. Oszacuj skłonność (prawdopodobieństwo) konstruowania . Na przykład za pomocą regresji logistycznej .
  4. Połącz w AIPWE, aby uzyskać

Interpretacja i „podwójna solidność”

Późniejsze przekształcenie wzoru pomaga ujawnić podstawową ideę: nasz estymator opiera się na średnim przewidywanym wyniku przy użyciu modelu (tj. ). Jeśli jednak model jest obciążony, reszty modelu nie będą (w pełnej grupie badanej a) około 0. Możemy skorygować to potencjalne obciążenie, dodając dodatkowy składnik średnich reszt modelu (Q) z prawdziwa wartość wyniku (Y) (tj.: ). Ponieważ brakuje nam wartości Y, przypisujemy wagi, aby zawyżyć względną ważność każdej reszty (wagi te są oparte na odwrotnej skłonności, czyli prawdopodobieństwie, dostrzeżenia obserwacji każdego podmiotu) (patrz strona 10 w ).

„Podwójnie solidna” korzyść z takiego estymatora wynika z faktu, że wystarczy poprawnie określić jeden z dwóch modeli, aby estymator był nieobciążony (albo Q ^ n ( lub , lub oba). Dzieje się tak, ponieważ jeśli model wynikowy jest dobrze określony, jego reszty będą wynosić około 0 (niezależnie od wag, jakie otrzyma każda reszta). Chociaż jeśli model jest obciążony, ale model ważenia jest dobrze określony, wówczas błąd zostanie dobrze oszacowany (i skorygowany) przez średnie ważone reszty.

Odchylenie podwójnie odpornych estymatorów nazywane jest błędem drugiego rzędu i zależy od iloczynu różnicy i różnica . Ta właściwość pozwala nam, mając „wystarczająco dużą” wielkość próby, obniżyć ogólne obciążenie podwójnie solidnych estymatorów za pomocą uczenia maszynowego (zamiast modeli parametrycznych).

Zobacz też