Nieparametryczny przedział ufności oparty na CDF
W statystyce nieparametryczne przedziały ufności oparte na skumulowanej funkcji dystrybucji (CDF) są ogólną klasą przedziałów ufności wokół funkcjonałów statystycznych rozkładu . Aby obliczyć te przedziały ufności, wszystko, czego potrzeba, to niezależnie i identycznie rozłożona (iid) próbka z rozkładu i znane granice na poparcie rozkładu. To ostatnie wymaganie oznacza po prostu, że cała niezerowa masa prawdopodobieństwa rozkładu musi być zawarta w pewnym znanym przedziale. .
Intuicja
Intuicja stojąca za podejściem opartym na CDF polega na tym, że granice CDF rozkładu można przetłumaczyć na granice funkcjonałów statystycznych tego rozkładu. Biorąc pod uwagę górną i dolną granicę CDF, podejście polega na znalezieniu CDF w granicach, które maksymalizują i minimalizują interesujący nas funkcjonał statystyczny.
Właściwości granic
W przeciwieństwie do podejść, które przyjmują założenia asymptotyczne, w tym podejść z samouzgodnieniem i tych, które opierają się na centralnym twierdzeniu granicznym , granice oparte na CDF są ważne dla skończonych rozmiarów próbek. I w przeciwieństwie do granic opartych na nierównościach, takich jak Hoeffdinga i McDiarmida , granice oparte na CDF wykorzystują właściwości całej próbki, a tym samym często dają znacznie ściślejsze granice.
Granice CDF
Tworząc granice na CDF, musimy rozróżnić pasma punktowe i jednoczesne .
Pasmo punktowe
Punktowa granica CDF to taka, która gwarantuje jedynie ich wynoszące procent dowolnym pojedynczym punkcie empirycznego CDF Ze względu na złagodzone gwarancje odstępy te mogą być znacznie mniejsze.
Jedna z metod ich generowania opiera się na rozkładzie dwumianowym. Biorąc pod uwagę pojedynczy punkt CDF o wartości będzie rozłożony proporcjonalnie do rozkładu i równą liczbie próbek w rozkładzie empirycznym. Zatem każda z dostępnych metod generowania przedziału ufności proporcji dwumianowej może być również wykorzystana do wygenerowania powiązania CDF.
Zespół symultaniczny
Przedziały ufności oparte na CDF wymagają probabilistycznego ograniczenia na CDF rozkładu, z którego wygenerowano próbkę. wiele metod generowania przedziałów ufności dla CDF rozkładu biorąc pod uwagę próbkę iid pobraną z rozkładu. Wszystkie te metody opierają się na funkcji rozkładu empirycznego (empiryczny CDF). Biorąc pod uwagę próbkę iid o rozmiarze n , empiryczny CDF jest zdefiniowany jako
gdzie jest zdarzenia A. Dvoretzky'ego – Kiefera – Wolfowitza stała została określona przez Massarta, umieszcza przedział ufności wokół statystyki Kołmogorowa – Smirnowa między CDF i empiryczny CDF. Biorąc uwagę próbkę iid o rozmiarze z , stany związane
Można to postrzegać jako obwiednię ufności, która biegnie równolegle do empirycznej CDF i jest w równym stopniu powyżej, jak i poniżej.
Równomiernie rozłożony przedział ufności wokół empirycznego CDF pozwala na różne wskaźniki naruszeń w poprzek rozkładu. W szczególności częściej zdarza się, że CDF znajduje się poza granicą CDF oszacowaną przy użyciu nierówności Dvoretzky'ego – Kiefera – Wolfowitza w pobliżu mediany rozkładu niż w pobliżu punktów końcowych rozkładu. Natomiast ograniczenie oparte na statystykach zamówień wprowadzone przez Learned-Miller i DeStefano pozwala na równy wskaźnik naruszeń we wszystkich statystykach zamówień. To z kolei powoduje, że granica jest ciaśniejsza w pobliżu końców podpór rozkładu i luźniejsza w środku podpór. Inne typy ograniczeń można generować, zmieniając współczynnik naruszeń dla statystyk zamówień. Na przykład, jeśli pożądane jest ściślejsze ograniczenie rozkładu w górnej części podpory, można dopuścić wyższy wskaźnik naruszenia w górnej części podparcia kosztem niższego wskaźnika naruszenia, a tym samym luźniejszego związany, dla dolnej części podpory.
Nieparametryczne ograniczenie średniej
Załóżmy bez utraty ogólności , że wsparcie rozkładu zawiera się w uwagę obwiednię ufności dla CDF łatwo jest wyprowadzić odpowiedni przedział ufności dla . Można pokazać, że CDF, który maksymalizuje średnią, to ten, który biegnie wzdłuż dolnej obwiedni ufności, średnią, to ten, który biegnie wzdłuż górnej koperta, . Korzystanie z tożsamości
przedział ufności dla średniej można obliczyć jako
Nieparametryczne ograniczenie wariancji
Załóżmy bez utraty ogólności, że poparcie dla dystrybucji odsetek zawarte w } Biorąc pod uwagę obwiednię ufności dla wykazać, że CDF w obwiedni, która minimalizuje wariancję, zaczyna się na dolnej obwiedni, ma nieciągłość skoku do górnej obwiedni, a następnie biegnie dalej wzdłuż górnej obwiedni. Ponadto można wykazać, że ten CDF minimalizujący wariancję, F ', musi spełniać ograniczenie polegające na tym, że nieciągłość skoku występuje w . CDF maksymalizujący wariancję zaczyna się na górnej obwiedni, przechodzi poziomo do dolnej obwiedni, a następnie biegnie dalej wzdłuż dolnej obwiedni. Jawne algorytmy do obliczania tych CDF maksymalizujących i minimalizujących wariancję podają Romano i Wolf.
Granice innych funkcjonałów statystycznych
Ramy oparte na CDF do generowania przedziałów ufności są bardzo ogólne i mogą być stosowane do wielu innych funkcjonałów statystycznych, w tym
- Entropia
- Wzajemne informacje
- Dowolne percentyle