Nierówność Dvoretzky'ego – Kiefera – Wolfowitza
W teorii prawdopodobieństwa i statystyki nierówność Dvoretzky'ego – Kiefera – Wolfowitza – Massarta ( nierówność DKW ) określa, jak blisko będzie określona empirycznie funkcja dystrybucji do funkcji dystrybucji , z której pobierane są próbki empiryczne. Jej nazwa pochodzi od Aryeha Dvoretzky'ego , Jacka Kiefera i Jacoba Wolfowitza , którzy w 1956 roku udowodnili nierówność
z nieokreśloną stałą multiplikatywną C przed wykładnikiem po prawej stronie.
W 1990 roku Pascal Massart udowodnił nierówność ze stałą ostrą C = 2, potwierdzając przypuszczenie Birnbauma i McCarty'ego. W 2021 roku Michael Naaman udowodnił wielowymiarową wersję nierówności DKW i uogólnił wynik szczelności Massarta na przypadek wielowymiarowy, co daje ostrą stałą o dwukrotności wymiaru k przestrzeni, w której znajdują się obserwacje : C = 2 k .
Nierówność DKW
Mając daną liczbę naturalną n , niech X 1 , X 2 , …, X n będą niezależnymi zmiennymi losowymi o identycznym rozkładzie o wartościach rzeczywistych i rozkładem skumulowanym F (·). Niech F n oznacza powiązaną dystrybuantę empiryczną zdefiniowaną przez
więc jest prawdopodobieństwo , że pojedyncza zmienna losowa fa { to ułamek zmiennych losowych, które są mniejsze niż .
Nierówność Dvoretzky'ego-Kiefera-Wolfowitza ogranicza prawdopodobieństwo, że funkcja losowa F n różni się od F o więcej niż daną stałą ε > 0 w dowolnym miejscu na linii rzeczywistej. Dokładniej, istnieje jednostronne oszacowanie
co implikuje również oszacowanie dwustronne
Wzmacnia to twierdzenie Glivenko-Cantelliego poprzez ilościowe określenie szybkości zbieżności , gdy n dąży do nieskończoności. Oszacowuje również prawdopodobieństwo ogona statystyki Kołmogorowa-Smirnowa . Powyższe nierówności wynikają z przypadku, w którym Gn jest F odpowiada rozkładowi jednostajnemu na [0,1] z uwagi na fakt, że Gn Fn ma rozkładem takie same rozkłady jak ( F ) gdzie empirycznym U 1 , U 2 , …, U n gdzie te są niezależne i Uniform(0,1) i zauważając to
z równością wtedy i tylko wtedy, gdy F jest ciągłe.
Przypadek wielowymiarowy
W przypadku wielowymiarowym X 1 , X 2 , …, X n jest sekwencją iid k -wymiarowych wektorów. Jeśli Fn jest wielowymiarowym empirycznym cdf, to
dla każdego ε , n , k > 0. Wyraz ( n + 1) można zastąpić przez 2 dla dowolnego dostatecznie dużego n .
Estymator Kaplana-Meiera
Nierówność Dvoretzky'ego – Kiefera – Wolfowitza otrzymuje się dla estymatora Kaplana – Meiera, który jest prawostronnie ocenzurowanym analogiem danych empirycznej funkcji dystrybucji
dla każdego pewnej stałej , gdzie estymatorem Kaplana-Meiera i to cenzurująca funkcja rozkładu.
Budowanie pasm CDF
Nierówność Dvoretzky'ego – Kiefera – Wolfowitza jest jedną z metod generowania granic ufności opartych na CDF i tworzenia przedziału ufności , który jest czasami nazywany przedziałem ufności Kołmogorowa – Smirnowa . Celem tego przedziału ufności jest zawarcie całego CDF na określonym poziomie ufności, podczas gdy alternatywne podejścia próbują osiągnąć poziom ufności tylko w każdym pojedynczym punkcie, co może pozwolić na ściślejsze ograniczenie. Granice DKW przebiegają równolegle do empirycznej CDF i są w równym stopniu powyżej, jak i poniżej. Równomiernie rozłożony przedział ufności wokół empirycznego CDF pozwala na różne wskaźniki naruszeń w poprzek rozkładu. W szczególności częściej zdarza się, że CDF znajduje się poza granicami CDF oszacowanymi przy użyciu nierówności DKW w pobliżu mediany rozkładu niż w pobliżu punktów końcowych rozkładu.
Przedział, który zawiera prawdziwy CDF, jest określany jako
co jest również szczególnym przypadkiem procedury asymptotycznej dla przypadku wielowymiarowego, w którym stosuje się następującą wartość krytyczną
dla testu wielowymiarowego; można zastąpić 2 k przez k ( n + 1) dla testu, który zachodzi dla wszystkich n ; ponadto test wielowymiarowy opisany przez Naamana można uogólnić, aby uwzględnić heterogeniczność i zależność.
Zobacz też
- Nierówność koncentracji – podsumowanie granic na zbiorach zmiennych losowych.