Nierówność Dvoretzky'ego – Kiefera – Wolfowitza

Powyższy wykres przedstawia przykładowe zastosowanie nierówności DKW do konstruowania granic ufności (na fioletowo) wokół funkcji rozkładu empirycznego (na jasnoniebiesko). W tym losowaniu prawdziwy CDF (pomarańczowy) jest całkowicie zawarty w granicach DKW.

W teorii prawdopodobieństwa i statystyki nierówność Dvoretzky'ego – Kiefera – Wolfowitza – Massarta ( nierówność DKW ) określa, jak blisko będzie określona empirycznie funkcja dystrybucji do funkcji dystrybucji , z której pobierane są próbki empiryczne. Jej nazwa pochodzi od Aryeha Dvoretzky'ego , Jacka Kiefera i Jacoba Wolfowitza , którzy w 1956 roku udowodnili nierówność

z nieokreśloną stałą multiplikatywną C przed wykładnikiem po prawej stronie.

W 1990 roku Pascal Massart udowodnił nierówność ze stałą ostrą C = 2, potwierdzając przypuszczenie Birnbauma i McCarty'ego. W 2021 roku Michael Naaman udowodnił wielowymiarową wersję nierówności DKW i uogólnił wynik szczelności Massarta na przypadek wielowymiarowy, co daje ostrą stałą o dwukrotności wymiaru k przestrzeni, w której znajdują się obserwacje : C = 2 k .

Nierówność DKW

Mając daną liczbę naturalną n , niech X 1 , X 2 , …, X n będą niezależnymi zmiennymi losowymi o identycznym rozkładzie o wartościach rzeczywistych i rozkładem skumulowanym F (·). Niech F n oznacza powiązaną dystrybuantę empiryczną zdefiniowaną przez

więc jest prawdopodobieństwo , że pojedyncza zmienna losowa fa { to ułamek zmiennych losowych, które są mniejsze niż .

Nierówność Dvoretzky'ego-Kiefera-Wolfowitza ogranicza prawdopodobieństwo, że funkcja losowa F n różni się od F o więcej niż daną stałą ε > 0 w dowolnym miejscu na linii rzeczywistej. Dokładniej, istnieje jednostronne oszacowanie

co implikuje również oszacowanie dwustronne

Wzmacnia to twierdzenie Glivenko-Cantelliego poprzez ilościowe określenie szybkości zbieżności , gdy n dąży do nieskończoności. Oszacowuje również prawdopodobieństwo ogona statystyki Kołmogorowa-Smirnowa . Powyższe nierówności wynikają z przypadku, w którym Gn jest F odpowiada rozkładowi jednostajnemu na [0,1] z uwagi na fakt, że Gn Fn ma rozkładem takie same rozkłady jak ( F ) gdzie empirycznym U 1 , U 2 , …, U n gdzie te są niezależne i Uniform(0,1) i zauważając to

z równością wtedy i tylko wtedy, gdy F jest ciągłe.

Przypadek wielowymiarowy

W przypadku wielowymiarowym X 1 , X 2 , …, X n jest sekwencją iid k -wymiarowych wektorów. Jeśli Fn jest wielowymiarowym empirycznym cdf, to

dla każdego ε , n , k > 0. Wyraz ( n + 1) można zastąpić przez 2 dla dowolnego dostatecznie dużego n .

Estymator Kaplana-Meiera

Nierówność Dvoretzky'ego – Kiefera – Wolfowitza otrzymuje się dla estymatora Kaplana – Meiera, który jest prawostronnie ocenzurowanym analogiem danych empirycznej funkcji dystrybucji

dla każdego pewnej stałej , gdzie estymatorem Kaplana-Meiera i to cenzurująca funkcja rozkładu.

Budowanie pasm CDF

Nierówność Dvoretzky'ego – Kiefera – Wolfowitza jest jedną z metod generowania granic ufności opartych na CDF i tworzenia przedziału ufności , który jest czasami nazywany przedziałem ufności Kołmogorowa – Smirnowa . Celem tego przedziału ufności jest zawarcie całego CDF na określonym poziomie ufności, podczas gdy alternatywne podejścia próbują osiągnąć poziom ufności tylko w każdym pojedynczym punkcie, co może pozwolić na ściślejsze ograniczenie. Granice DKW przebiegają równolegle do empirycznej CDF i są w równym stopniu powyżej, jak i poniżej. Równomiernie rozłożony przedział ufności wokół empirycznego CDF pozwala na różne wskaźniki naruszeń w poprzek rozkładu. W szczególności częściej zdarza się, że CDF znajduje się poza granicami CDF oszacowanymi przy użyciu nierówności DKW w pobliżu mediany rozkładu niż w pobliżu punktów końcowych rozkładu.

Przedział, który zawiera prawdziwy CDF, jest określany jako

co jest również szczególnym przypadkiem procedury asymptotycznej dla przypadku wielowymiarowego, w którym stosuje się następującą wartość krytyczną

dla testu wielowymiarowego; można zastąpić 2 k przez k ( n + 1) dla testu, który zachodzi dla wszystkich n ; ponadto test wielowymiarowy opisany przez Naamana można uogólnić, aby uwzględnić heterogeniczność i zależność.

Zobacz też