Warunkowa regresja logistyczna

Warunkowa regresja logistyczna jest rozszerzeniem regresji logistycznej , które pozwala uwzględnić stratyfikację i dopasowanie . Jej głównym obszarem zastosowania są badania obserwacyjne , aw szczególności epidemiologia . Został opracowany w 1978 roku przez Normana Breslowa , Nicholasa Daya , Katherine Halvorsen , Rossa L. Prentice'a i C. Sabai. Jest to najbardziej elastyczna i ogólna procedura dla dopasowanych danych.

Motywacja

Badania obserwacyjne wykorzystują stratyfikację lub dopasowywanie jako sposób kontrolowania zakłóceń . Kilka testów istniało przed warunkową regresją logistyczną dla dopasowanych danych, jak pokazano w powiązanych testach . Nie pozwoliły one jednak na analizę predyktorów ciągłych o dowolnej wielkości warstwy. Wszystkim tym procedurom brakuje również elastyczności warunkowej regresji logistycznej, aw szczególności możliwości kontroli współzmiennych.

Regresja logistyczna może uwzględniać rozwarstwienie, mając inny stały składnik dla każdej warstwy. Oznaczmy ${\ Displaystyle Y_ {i \ ell} \ w \ {0,1 \}}$ etykietę (np. status sprawy) obserwacji ${\ displaystyle \ ell}$ th obserwacji $}$ $i$ th warstwa odpowiednich predyktorów Wtedy prawdopodobieństwo jednej obserwacji wynosi

{\ Displaystyle \ mathbb {P} (Y_ { i\ell}=1|X_{i\ell})={\frac {\exp(\alpha _{i}+{\boldsymbol {\beta}}^{\top }X_{i\ell})} {1+\exp(\alpha _{i}+{\boldsymbol {\beta}}^{\góra}X_{i\ell})}}}

gdzie $_$ terminem $warstwy$ . Chociaż działa to zadowalająco dla ograniczonej liczby warstw, zachowanie patologiczne występuje, gdy warstwy są małe. Gdy warstwy są parami, liczba parametrów rośnie wraz z liczbą obserwacji $($ jest równa się ${\ displaystyle {\ frac {N} {2}} + p}$ . Wyniki asymptotyczne, na których oszacowanie maksymalnego prawdopodobieństwa, są zatem nieważne, a oszacowanie jest obciążone. W rzeczywistości można wykazać, że bezwarunkowa analiza danych dopasowanych par daje oszacowanie ilorazu szans, który jest kwadratem poprawnego, warunkowego.

Prawdopodobieństwo warunkowe

Podejście warunkowej wiarygodności zajmuje się powyższym patologicznym zachowaniem poprzez warunkowanie liczby przypadków w każdej warstwie, a tym samym eliminowanie potrzeby szacowania parametrów warstw. W przypadku, gdy warstwy są parami, gdzie pierwsza obserwacja jest przypadkiem, a druga kontrolą, można to zobaczyć w następujący sposób

{\ Displaystyle {\ rozpocząć {wyrównane} i \ mathbb {P} (Y_ {i1} = 1, Y_ {i2} = 0 | X_ {i1}, X_ {i2}, Y_ {i1} + Y_ {i2} = 1)\\&={\frac {\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})}{\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})+\mathbb {P} (Y_{i1}=0|X_{ i1})\mathbb {P} (Y_{i2}=1|X_{i2})}}\\[6pt]\ &={\frac {{\frac {\exp(\alpha _{i}+{ \boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta}}^{\top }X_{i1})} }\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta}}^{\top }X_{i2})}}}{{\frac {\exp (\alpha _{i}+{\boldsymbol {\beta}}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta}}^{ \top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta}}^{\top }X_{i2})} }+{\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta}}^{\top }X_{i1})}}\times {\frac {\exp( \alpha _{i}+{\boldsymbol {\beta}}^{\top }X_{i2})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta}}^{\ top }X_{i2})}}}}\\[6pt]\ &={\frac {\exp({\boldsymbol {\beta}}^{\top }X_{i1})}{\exp({ \boldsymbol {\beta }}^{\top }X_{i1})+\exp({\boldsymbol {\beta}}^{\top }X_{i2})}}.\\[6pt]\end{ wyrównany}}}

Przy podobnych obliczeniach warunkowe prawdopodobieństwo warstwy o rozmiarze $,$ z pierwszymi obserwacjami będącymi przypadkami, wynosi $displaystyle m}$

{\ Displaystyle \ mathbb {P} (Y_ {ij} = 1 {\ tekst { for }}j\leq k,Y_{ij}=0{\text{ for }}k<j\leq m|X_{i1},...,X_{im},\suma _{j=1} ^ {m} Y_ {ij} = k) = {\ frac {\ exp (\ suma _ {j = 1} ^ {k} {\ boldsymbol {\ beta}} ^ {\ szczyt} X_ {ij})} {\sum _{J\in {\mathcal {C}}_{k}^{m}}\exp(\sum _{j\in J}{\boldsymbol {\beta}}^{\top }X_ {ij})}},}

gdzie do $k$ ${C}} _ {k} ^ {m}}$ $..., m \}}$ jest zbiorem wszystkich podzbiorów o zbioru .

Pełny logarytm wiarygodności warunkowej jest wtedy po prostu sumą logarytmów wiarygodności dla każdej warstwy. Estymator jest następnie definiowany jako $,$ który maksymalizuje prawdopodobieństwo logarytmu warunkowego.

Realizacja

Warunkowa regresja logistyczna jest dostępna w R jako funkcja clogit w pakiecie przetrwania . Znajduje się w przetrwania , ponieważ logarytm wiarygodności warunkowego modelu logistycznego jest taki sam, jak logarytm wiarygodności modelu Coxa z określoną strukturą danych.

Powiązane testy

Test różnic sparowanych pozwala przetestować powiązanie między wynikiem binarnym a ciągłym predyktorem, biorąc pod uwagę parowanie.
Test Cochrana-Mantela-Haenszela pozwala przetestować związek między wynikiem binarnym a predyktorem binarnym, biorąc pod uwagę stratyfikację z dowolną wielkością warstw. Po zweryfikowaniu warunków jego zastosowania jest on identyczny z testem punktowym warunkowej regresji logistycznej .

Notatki