Nieparametryczny przedział ufności oparty na CDF

W statystyce nieparametryczne przedziały ufności oparte na skumulowanej funkcji dystrybucji (CDF) są ogólną klasą przedziałów ufności wokół funkcjonałów statystycznych rozkładu . Aby obliczyć te przedziały ufności, wszystko, czego potrzeba, to niezależnie i identycznie rozłożona (iid) próbka z rozkładu i znane granice na poparcie rozkładu. To ostatnie wymaganie oznacza po prostu, że cała niezerowa masa prawdopodobieństwa rozkładu musi być zawarta w pewnym znanym przedziale. .

Intuicja

Intuicja stojąca za podejściem opartym na CDF polega na tym, że granice CDF rozkładu można przetłumaczyć na granice funkcjonałów statystycznych tego rozkładu. Biorąc pod uwagę górną i dolną granicę CDF, podejście polega na znalezieniu CDF w granicach, które maksymalizują i minimalizują interesujący nas funkcjonał statystyczny.

Właściwości granic

W przeciwieństwie do podejść, które przyjmują założenia asymptotyczne, w tym podejść z samouzgodnieniem i tych, które opierają się na centralnym twierdzeniu granicznym , granice oparte na CDF są ważne dla skończonych rozmiarów próbek. I w przeciwieństwie do granic opartych na nierównościach, takich jak Hoeffdinga i McDiarmida , granice oparte na CDF wykorzystują właściwości całej próbki, a tym samym często dają znacznie ściślejsze granice.

Granice CDF

Tworząc granice na CDF, musimy rozróżnić pasma punktowe i jednoczesne .

Ilustracja różnych granic CDF. To pokazuje granice CDF wygenerowane z losowej próbki 30 punktów. Fioletowa linia to jednoczesne granice DKW, które obejmują cały CDF na poziomie ufności 95%. Pomarańczowe linie pokazują punktowe granice Cloppera-Pearsona, które gwarantują tylko pojedyncze punkty na poziomie ufności 95%, a tym samym zapewniają ściślejsze ograniczenie

Pasmo punktowe

Punktowa granica CDF to taka, która gwarantuje jedynie ich wynoszące procent dowolnym pojedynczym punkcie empirycznego CDF Ze względu na złagodzone gwarancje odstępy te mogą być znacznie mniejsze.

Jedna z metod ich generowania opiera się na rozkładzie dwumianowym. Biorąc pod uwagę pojedynczy punkt CDF o wartości będzie rozłożony proporcjonalnie do rozkładu i równą liczbie próbek w rozkładzie empirycznym. Zatem każda z dostępnych metod generowania przedziału ufności proporcji dwumianowej może być również wykorzystana do wygenerowania powiązania CDF.

Zespół symultaniczny

Przedziały ufności oparte na CDF wymagają probabilistycznego ograniczenia na CDF rozkładu, z którego wygenerowano próbkę. wiele metod generowania przedziałów ufności dla CDF rozkładu biorąc pod uwagę próbkę iid pobraną z rozkładu. Wszystkie te metody opierają się na funkcji rozkładu empirycznego (empiryczny CDF). Biorąc pod uwagę próbkę iid o rozmiarze n , empiryczny CDF jest zdefiniowany jako

gdzie jest zdarzenia A. Dvoretzky'ego – Kiefera – Wolfowitza stała została określona przez Massarta, umieszcza przedział ufności wokół statystyki Kołmogorowa – Smirnowa między CDF i empiryczny CDF. Biorąc uwagę próbkę iid o rozmiarze z , stany związane

Można to postrzegać jako obwiednię ufności, która biegnie równolegle do empirycznej CDF i jest w równym stopniu powyżej, jak i poniżej.

Ilustracja ograniczenia empirycznego CDF, które otrzymuje się za pomocą nierówności Dvoretzky'ego – Kiefera – Wolfowitza. Notacja wskazuje statystykę kolejności .

Równomiernie rozłożony przedział ufności wokół empirycznego CDF pozwala na różne wskaźniki naruszeń w poprzek rozkładu. W szczególności częściej zdarza się, że CDF znajduje się poza granicą CDF oszacowaną przy użyciu nierówności Dvoretzky'ego – Kiefera – Wolfowitza w pobliżu mediany rozkładu niż w pobliżu punktów końcowych rozkładu. Natomiast ograniczenie oparte na statystykach zamówień wprowadzone przez Learned-Miller i DeStefano pozwala na równy wskaźnik naruszeń we wszystkich statystykach zamówień. To z kolei powoduje, że granica jest ciaśniejsza w pobliżu końców podpór rozkładu i luźniejsza w środku podpór. Inne typy ograniczeń można generować, zmieniając współczynnik naruszeń dla statystyk zamówień. Na przykład, jeśli pożądane jest ściślejsze ograniczenie rozkładu w górnej części podpory, można dopuścić wyższy wskaźnik naruszenia w górnej części podparcia kosztem niższego wskaźnika naruszenia, a tym samym luźniejszego związany, dla dolnej części podpory.

Nieparametryczne ograniczenie średniej

Załóżmy bez utraty ogólności , że wsparcie rozkładu zawiera się w uwagę obwiednię ufności dla CDF łatwo jest wyprowadzić odpowiedni przedział ufności dla . Można pokazać, że CDF, który maksymalizuje średnią, to ten, który biegnie wzdłuż dolnej obwiedni ufności, średnią, to ten, który biegnie wzdłuż górnej koperta, . Korzystanie z tożsamości

przedział ufności dla średniej można obliczyć jako

Nieparametryczne ograniczenie wariancji

Załóżmy bez utraty ogólności, że poparcie dla dystrybucji odsetek zawarte w } Biorąc pod uwagę obwiednię ufności dla wykazać, że CDF w obwiedni, która minimalizuje wariancję, zaczyna się na dolnej obwiedni, ma nieciągłość skoku do górnej obwiedni, a następnie biegnie dalej wzdłuż górnej obwiedni. Ponadto można wykazać, że ten CDF minimalizujący wariancję, F ', musi spełniać ograniczenie polegające na tym, że nieciągłość skoku występuje w . CDF maksymalizujący wariancję zaczyna się na górnej obwiedni, przechodzi poziomo do dolnej obwiedni, a następnie biegnie dalej wzdłuż dolnej obwiedni. Jawne algorytmy do obliczania tych CDF maksymalizujących i minimalizujących wariancję podają Romano i Wolf.

Granice innych funkcjonałów statystycznych

Ramy oparte na CDF do generowania przedziałów ufności są bardzo ogólne i mogą być stosowane do wielu innych funkcjonałów statystycznych, w tym

Zobacz też