Nierówność Dvoretzky'ego – Kiefera – Wolfowitza

Powyższy wykres przedstawia przykładowe zastosowanie nierówności DKW do konstruowania granic ufności (na fioletowo) wokół funkcji rozkładu empirycznego (na jasnoniebiesko). W tym losowaniu prawdziwy CDF (pomarańczowy) jest całkowicie zawarty w granicach DKW.

W teorii prawdopodobieństwa i statystyki nierówność Dvoretzky'ego – Kiefera – Wolfowitza – Massarta ( nierówność DKW ) określa, jak blisko będzie określona empirycznie funkcja dystrybucji do funkcji dystrybucji , z której pobierane są próbki empiryczne. Jej nazwa pochodzi od Aryeha Dvoretzky'ego , Jacka Kiefera i Jacoba Wolfowitza , którzy w 1956 roku udowodnili nierówność

{\ Displaystyle \ Pr {\ Bigl (} \ sup _ {x \in \mathbb {R} }|F_{n}(x)-F(x)|>\varepsilon {\Bigr )}\leq Ce^{-2n\varepsilon ^{2}}\qquad {\text{ dla każdego }}\varepsilon >0.}

z nieokreśloną stałą multiplikatywną C przed wykładnikiem po prawej stronie.

W 1990 roku Pascal Massart udowodnił nierówność ze stałą ostrą C = 2, potwierdzając przypuszczenie Birnbauma i McCarty'ego. W 2021 roku Michael Naaman udowodnił wielowymiarową wersję nierówności DKW i uogólnił wynik szczelności Massarta na przypadek wielowymiarowy, co daje ostrą stałą o dwukrotności wymiaru k przestrzeni, w której znajdują się obserwacje : C = 2 k .

Nierówność DKW

Mając daną liczbę naturalną n , niech X ₁ , X ₂ , …, X _{n będą niezależnymi} zmiennymi losowymi o identycznym rozkładzie o wartościach rzeczywistych i rozkładem skumulowanym F (·). Niech F _n oznacza powiązaną dystrybuantę empiryczną zdefiniowaną przez

{\ Displaystyle F_ {n} (x) = {\ Frac {1} {n}} \ suma _ {i = 1} ^ {n} \ mathbf {1} _ {\ {X_ {i} \ równoważnik x \ }},\qquad x\in \mathbb {R} .}

więc jest prawdopodobieństwo , że pojedyncza zmienna losowa $jest$ $\ displaystyle x}$ $i$ fa $(x)}$ { $n$ to ułamek zmiennych losowych, które są mniejsze niż ${\ displaystyle x}$ .

Nierówność Dvoretzky'ego-Kiefera-Wolfowitza ogranicza prawdopodobieństwo, że funkcja losowa F _n różni się od F o więcej niż daną stałą ε > 0 w dowolnym miejscu na linii rzeczywistej. Dokładniej, istnieje jednostronne oszacowanie

{\ Displaystyle \ Pr {\ Bigl (} \ sup _{x\in \mathbb {R}}{\bigl (}F_{n}(x)-F(x){\bigr )}>\varepsilon {\Bigr )}\leq e^{-2n\ varepsilon ^{2}}\qquad {\text{dla każdego}}\varepsilon \geq {\sqrt {{\tfrac {1}{2n}}\ln 2}},}

co implikuje również oszacowanie dwustronne

{\ Displaystyle \ Pr {\ Bigl (} \ sup _ {x \in \mathbb {R} }|F_{n}(x)-F(x)|>\varepsilon {\Bigr )}\leq 2e^{-2n\varepsilon ^{2}}\qquad {\text{ dla każdego }}\varepsilon >0.}

Wzmacnia to twierdzenie Glivenko-Cantelliego poprzez ilościowe określenie szybkości zbieżności , gdy n dąży do nieskończoności. Oszacowuje również prawdopodobieństwo ogona statystyki Kołmogorowa-Smirnowa . Powyższe nierówności wynikają z przypadku, w którym Gn jest _F odpowiada rozkładowi jednostajnemu na [0,1] z uwagi na fakt, że Gn _Fn ma _rozkładem takie same rozkłady jak ( F ) gdzie empirycznym U ₁ , U ₂ , …, U _n gdzie te są niezależne i Uniform(0,1) i zauważając to

\ Displaystyle \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \; {\ stackrel {d} {=}} \; \ sup _ {x \in \mathbb {R} }|G_{n}(F(x))-F(x)|\równoważnik \sup _{0\równik t\równik 1}|G_{n}(t)-t| ,}

z równością wtedy i tylko wtedy, gdy F jest ciągłe.

Przypadek wielowymiarowy

W przypadku wielowymiarowym X ₁ , X ₂ , …, X _n jest sekwencją iid k -wymiarowych wektorów. Jeśli Fn _jest wielowymiarowym empirycznym cdf, to

{\ Displaystyle \ Pr {\ Bigl (} \ sup _ {t \in \mathbb {R} ^{k}}|F_{n}(t)-F(t)|>\varepsilon {\Bigr )}\leq (n+1)ke^{-2n\varepsilon ^{ 2}}}

dla każdego ε , n , k > 0. Wyraz ( n + 1) można zastąpić przez 2 dla dowolnego dostatecznie dużego n .

Estymator Kaplana-Meiera

Nierówność Dvoretzky'ego – Kiefera – Wolfowitza otrzymuje się dla estymatora Kaplana – Meiera, który jest prawostronnie ocenzurowanym analogiem danych empirycznej funkcji dystrybucji

{\ Displaystyle \ Pr {\ Bigl (}{\ sqrt {n}} \ sup _ {t \ w [0, \ infty)} | (1-G ( t))(F_{n}(t)-F(t))|>\varepsilon {\Bigr }}\leq 2,5e^{-2\varepsilon ^{2}+C\varepsilon }}

dla każdego $varepsilon > 0$ pewnej stałej , gdzie $displaystyle F_ {$ estymatorem Kaplana-Meiera i $} displaystyle G}$ $}}$ to cenzurująca funkcja rozkładu.

Budowanie pasm CDF

Nierówność Dvoretzky'ego – Kiefera – Wolfowitza jest jedną z metod generowania granic ufności opartych na CDF i tworzenia przedziału ufności , który jest czasami nazywany przedziałem ufności Kołmogorowa – Smirnowa . Celem tego przedziału ufności jest zawarcie całego CDF na określonym poziomie ufności, podczas gdy alternatywne podejścia próbują osiągnąć poziom ufności tylko w każdym pojedynczym punkcie, co może pozwolić na ściślejsze ograniczenie. Granice DKW przebiegają równolegle do empirycznej CDF i są w równym stopniu powyżej, jak i poniżej. Równomiernie rozłożony przedział ufności wokół empirycznego CDF pozwala na różne wskaźniki naruszeń w poprzek rozkładu. W szczególności częściej zdarza się, że CDF znajduje się poza granicami CDF oszacowanymi przy użyciu nierówności DKW w pobliżu mediany rozkładu niż w pobliżu punktów końcowych rozkładu.

Przedział, który zawiera prawdziwy CDF, ${\ Displaystyle$ jest określany jako $F (x) }$

{\ Displaystyle F_ {n} (x) - \ varepsilon \ równoważnik F (x) \ równoważnik F_ {n}(x)+\varepsilon \;{\text{gdzie}}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha}}}{2n}}}}

co jest również szczególnym przypadkiem procedury asymptotycznej dla przypadku wielowymiarowego, w którym stosuje się następującą wartość krytyczną

{\ Displaystyle {\ Frac {d (\ alfa, k)}} {\ sqrt {n}}} = {\ sqrt {\ Frac {\ ln {\ frac {2k}{\alfa}}}{2n}}}}

dla testu wielowymiarowego; można zastąpić 2 k przez k ( n + 1) dla testu, który zachodzi dla wszystkich n ; ponadto test wielowymiarowy opisany przez Naamana można uogólnić, aby uwzględnić heterogeniczność i zależność.

Zobacz też

Nierówność koncentracji – podsumowanie granic na zbiorach zmiennych losowych.