Teoria prawdopodobieństwa
W teorii prawdopodobieństwa twierdzenie Glivenko-Cantelli (czasami nazywane fundamentalnym twierdzeniem statystyki ), nazwane na cześć Walerego Iwanowicza Glivenki i Francesco Paolo Cantelli , określa asymptotyczne zachowanie empirycznej funkcji dystrybucji jako liczby niezależnych i identycznie rozłożonych obserwacje rosną.
Jednolita zbieżność bardziej ogólnych miar empirycznych staje się ważną właściwością klas funkcji lub zbiorów Glivenko – Cantelli . Klasy Glivenko – Cantelli powstają w teorii Vapnika – Chervonenkisa , z zastosowaniami w uczeniu maszynowym . Zastosowania można znaleźć w ekonometrii wykorzystującej M-estymatory .
Oświadczenie
Załóżmy, że
Displaystyle \ mathbb
{
R
funkcją
(
dystrybucji
w
są
niezależnymi zmiennymi losowymi o identycznym rozkładzie R
{
}}
F
\
x )
{\ Displaystyle F (x)}
ze wspólną skumulowaną . Empiryczna funkcja dystrybucji dla
X
1
, … ,
X
n
{\ Displaystyle X_ {1}, \ kropki, X_ {n}}
jest określony przez
fa
n
( x ) =
1 n
∑
ja = 1
n
ja
[
X
ja
, ∞ )
( x ) =
1 n
|
{
1 ≤ ja ≤ n ∣
X
ja
≤ x
}
|
{\ Displaystyle F_ {n} (x) = {\ Frac {1} {n}} \ suma _ {i = 1} ^ {n} I_ {[X_ {i}, \ infty)} (x) = { \frac {1}{n}}\left|\left\{1\leq i\leq n\mid X_{i}\leq x\right\}\right|}
gdzie jest funkcją wskaźnika zbioru . ja do
{
{
C}}
\ displaystyle
I_
. Dla każdego (stałego)
jest
ciągiem
zmiennych losowych, które zbiegają się prawie do
{ \
fa
F
(
x
}
( x )
Displaystyle
) z pewnością przez silne prawo wielkich liczb . Glivenko i Cantelli wzmocnili ten wynik udowadniając jednostajna zbieżność do
fa
n {\
{n}
displaystyle
F_
}
.
Twierdzenie
‖
fa
n
- fa
‖
∞
=
sup
x ∈
R
|
fa
n
( x ) - fa ( x )
|
⟶
0
{\ Displaystyle \|F_ {n} -F \|_ {\ infty} = \ sup _ {x \ in \ mathbb {R}}| F_ {n} (x) -F (x) |\ longrightarrow 0 }
prawie na pewno.
Twierdzenie to pochodzi od Valery'ego Glivenko i Francesco Cantelli w 1933 roku.
Uwagi
Jeśli jest
(
prawie
stacjonarnym
procesem
to
na
X
1
zbiega
x
się
ergodycznym
=
pewno
_ 1 )
{\ Displaystyle F (x) = \ nazwa operatora {E} (1_ {X_ {1} \ równoważnik x})}
, do
fa
≤
mi
x
(
)
. Twierdzenie Glivenko – Cantelli daje silniejszy tryb zbieżności niż ten w iid .
Jeszcze silniejszy wynik jednostajnej zbieżności dla dystrybuanta empirycznego jest dostępny w postaci rozszerzonego typu prawa logarytmu iterowanego . Zobacz asymptotyczne właściwości funkcji dystrybucji empirycznej dla tego i pokrewnych wyników.
Dowód
Dla uproszczenia rozważmy przypadek ciągłej zmiennej losowej
X
{\ displaystyle X}
. Fix
- ∞ =
x
0
<
x
1
< ⋯ <
x
m - 1
<
x
m
= ∞
{\ Displaystyle - \ infty = x_ {0}<x_ {1}<\ cdots <x_ {m-1}<x_ {m }=\infty }
takie, że
fa (
x
jot
) - fa (
x
jot - 1
) =
1 m
{\ Displaystyle F (x_ {j}) -F (x_ {j-1}) = {\ Frac {1} {m}}}
dla jot
= 1 , … , m {
\ Displaystyle j = 1, \ kropki ,m}
. Teraz
że x ∈
Displaystyle x \ in \ mathbb {
, że
dla
}
wszystkich istnieje takie,
R {
\
R}}
takie
x ∈ [
x
jot - 1
,
x
jot
]
{\ Displaystyle x \ w [x_ {j-1}, x_ {j}]}
. Zauważ to
fa
n
( x ) - fa ( x )
≤
fa
n
(
x
jot
) - fa (
x
jot - 1
) =
fa
n
(
x
jot
) - fa (
x
jot
) +
1 m
,
fa
n
( x ) - fa ( x )
≥
fa
n
(
x
jot - 1
) - fa (
x
jot
) =
fa
n
(
x
jot - 1
) - fa (
x
jot - 1
) -
1 m
.
{\ Displaystyle {\ rozpocząć {wyrównane} F_ {n} (x) -F (x) i \ równoważnik F_ {n} (x_ {j}) -F (x_ {j-1}) = F_ {n} ( x_{j})-F(x_{j})+{\frac {1}{m}},\\F_{n}(x)-F(x)&\geq F_{n}(x_{j -1})-F(x_{j})=F_{n}(x_{j-1})-F(x_{j-1})-{\frac {1}{m}}.\end{ wyrównany}}}
Dlatego,
‖
fa
n
- fa
‖
∞
=
sup
x ∈
R
|
fa
n
( x ) - fa ( x )
|
≤
maks
jot ∈ { 1 , … , m }
|
fa
n
(
x
jot
) - fa (
x
jot
)
|
+
1m
_
.
{\ Displaystyle \| F_ {n} -F \ | _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) |\ równoważnik \ max _{j\w \{1,\kropki,m\}}|F_{n}(x_{j})-F(x_{j})|+{\frac {1}{m}}.}
Ponieważ
0
max
j ∈ { 1 , … , m }
|
fa
n
(
x
jot
) - fa (
x
jot
)
|
→
as
{\textstyle \max _{j\in \{1,\kropki,m\}}|F_{n}(x_{j})-F(x_{j})|\do 0{\tekst{ as}}}
mocą prawa wielkich liczb możemy zagwarantować, że dla dowolnej dodatniej
i
dowolnej
liczby całkowitej
takiej
,
że
1
/
m < ε
{\ textstyle 1/m <\ varepsilon}
,
≥ N {\
n \ geq N}
możemy znaleźć takie, że dla wszystkich
n
Displaystyle
mamy
max
jot ∈ { 1 , … , m }
|
fa
n
(
x
jot
) - fa (
x
jot
)
|
≤ ε - 1
/
m
as
{\textstyle \max _{j\in \{1,\kropki,m\}}|F_{n}(x_{j})-F(x_{j})|\równoważnik \varepsilon -1/m{ \text{ jako}}}
. W połączeniu z powyższym wynikiem oznacza to dalej, że
‖
fa
n
- fa
‖
∞
≤ ε
as
{\ textstyle \|F_ {n} -F \|_ {\ infty} \ leq \ varepsilon {\ text {a}}}
, co jest definicją prawie pewnej zbieżności.
Miary empiryczne
Funkcję rozkładu empirycznego można uogólnić
,
{\ displaystyle {\ mathcal {C}}}
zastępując zbiór
( - ∞ , x ]
{\ Displaystyle (- \ infty, x]}
dowolnym zbiorem C z klasy zbiorów do aby uzyskać miarę empiryczną indeksowaną przez zbiory
do ∈
do
,
{\ Displaystyle C \ in {\ mathcal {C}}.}
P
n
( do ) =
1 n
∑
ja = 1
n
ja
do
(
X
ja
) , do ∈
do
{\ Displaystyle P_ {n} (C) = {\ Frac {1} {n}} \ suma _ {i = 1}^{n}I_{C}(X_{i}),C\w {\mathcal {C}}}
Gdzie
jest
}
( x ) {
(x)
funkcją wskaźnika każdego zestawu. ja do
\ displaystyle
I_ {C
}
Dalszym uogólnieniem jest mapa wywołana przez mierzalne funkcje o wartościach rzeczywistych f , którą podaje
P
n
{\ displaystyle P_ {n}}
fa ↦
P
n
fa =
∫
S
fa re
P.
n
=
1 n
∑
ja = 1
n
fa (
X
ja
) , fa ∈
fa
.
{\ Displaystyle f \ mapsto P_ {n} f = \ int _ {S} f \, dP_ {n} = {\ Frac {1} {n}} \ suma _ {i = 1} ^ {n} f ( X_ {i}),f\w {\mathcal {F}}.}
Wtedy ważną właściwością tych klas staje
,
się to
.
czy silne prawo wielkich liczb obowiązuje jednolicie na lub
Klasa Glivenko-Cantelli
Rozważmy
podzbiorów
zbiór z algebrą sigma borelowskich A i miarą prawdopodobieństwa P . Dla klasy podzbiorów
}
do ⊂ { do :
C
jest mierzalnym podzbiorem
S
}
{\ Displaystyle {\ mathcal {C}} \ podzbiór \ {C: C {\ tekst {jest mierzalnym podzbiorem}} {\ mathcal {S}} \}
i klasa funkcji
fa
⊂ { fa :
S
→
R
, fa
jest mierzalne
}
{\ Displaystyle {\ mathcal {F}} \ podzbiór \ {f: {\ mathcal {S}} \ do \ mathbb {R}, f {\ mbox {jest wymierny}}\,\}}
zdefiniuj zmienne losowe
‖
P
n
− P
‖
do
=
sup
do ∈
do
|
P
n
( do ) - P. ( do )
|
{\ Displaystyle \| P_ {n} -P \ | _ {\ mathcal {C}} = \ sup _ {C \ w {\ mathcal {C}}} | P_ {n} (C) -P (C) |}
‖
P
n
− P
‖
fa
=
sup
fa ∈
fa
|
P
n
fa - P fa
|
{\ Displaystyle \| P_ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {f \ w {\ mathcal {F}}} | P_ {n} f-Pf |}
gdzie
P
n
( do ) {\ Displaystyle P_ {n} ( C
)}
jest miarą empiryczną,
P
n
fa
{\ Displaystyle P_ {n} f}
jest odpowiednią mapą i P n ( do ) {\ Displaystyle P_ {n} (C)}
mi fa =
∫
S
fa re P. = P. fa
{\ Displaystyle \ nazwa operatora {E} f = \ int _ {\ mathcal {S}} f \, dP = Pf} ,
zakładając, że istnieje.
Definicje
Klasa nazywana jest klasą Glivenko – Cantelli (lub klasą GC )
w
,
odniesieniu do miary prawdopodobieństwa P jeśli którekolwiek z poniższych równoważnych stwierdzeń jest prawdziwe.
1.
‖
P
n
- P.
‖
do
→
0
{\ Displaystyle \| P_ {n} -P \| _ {\ mathcal {C}} \ do 0} prawie na pewno
jako
n → ∞
{\ Displaystyle n \ do \ infty}
.
2.
‖
P
n
− P
‖
do
→
0
{\ Displaystyle \| P_ {n} -P \| _ {\ mathcal {C}} \ do 0}
z prawdopodobieństwem jako
n → ∞
{\ Displaystyle n \ do \ infty}
.
3.
mi ‖
P
n
- P.
‖
do
→
0
{\ Displaystyle \ nazwa operatora {E} \| P_ {n} -P \ | _ {\ mathcal {C}} \ do 0},
jak
n → ∞
{\ Displaystyle n\to \infty }
(zbieżność w średniej).
Klasy funkcji Glivenko – Cantelli są definiowane podobnie.
Klasa nazywana jest uniwersalną klasą Glivenko – Cantelli , jeśli jest klasą GC w odniesieniu do dowolnej miary prawdopodobieństwa P na ( S , A ).
Klasa nazywana jest jednolicie Glivenko – Cantelli , jeśli zbieżność zachodzi równomiernie dla wszystkich miar prawdopodobieństwa P na ( S , A ):
0
sup
P ∈
P.
( S , ZA )
mi ‖
P
n
- P
‖
do
→ ;
{\ Displaystyle \ sup _ {P \ w {\ mathcal {P}} (S, A)} \ operatorname {E} \| P_ {n} -P \ | _ {\ mathcal {C}} \ do 0; }
sup
P ∈
P.
( S , ZA )
mi ‖
P
n
- P
‖
fa
→ 0.
{\ Displaystyle \ sup _ {P \ w {\ mathcal {P}} (S, A)} \ operatorname {E} \| P_ {n} -P \ | _ {\ mathcal {F}} \ do 0. }
Twierdzenie ( Vapnik i Chervonenkis , 1968)
Klasa zbiorów
jest jednostajnie
GC
wtedy i tylko wtedy, gdy jest klasą Vapnika – Chervonenkisa .
Przykłady
Niech
S =
R
{\ Displaystyle S = \ mathbb {R}}
i do
=
{ ( - ∞ , t ] : t ∈ R
}
{
\ Displaystyle {\ mathcal {C}} = \ {(- \ infty, t] :t\in {\mathbb {R}}\}} Z
klasycznego twierdzenia Glivenki-Cantellego wynika, że ta klasa jest uniwersalną klasą GC. Ponadto, zgodnie z twierdzeniem Kołmogorowa ,
sup
P ∈
P
( S , A )
‖
P
n
- P
‖
do
∼
n
- 1
/
2
} \ sim n ^ {-1/2}}
{\ Displaystyle \ sup _ {P \ w {\ mathcal {P}} (S, A)} \| P_ {n} -P \ | _ {\ mathcal {C
,
}
czyli jest jednolicie klasą Glivenko – Cantelli.
Niech P będzie nieatomową miarą prawdopodobieństwa na S i będzie klasą wszystkich skończonych
podzbiorów
w
S . Ponieważ
A
n
= {
X
1
, … ,
X
n
} ∈
do
{\ Displaystyle A_ {n} = \ {X_ {1}, \ ldots, X_ {n} \} \ w {\ mathcal {C}}}
,
P (
ZA
n
) =
0
{\ Displaystyle P (A_ {n}) = 0}
,
P
n
(
ZA
n
) = 1
{\ Displaystyle P_ {n} (A_ {n}) = 1}
, mamy to
‖
P
n
- P
‖
do
= 1
{\ Displaystyle \| P_ {n} -P \|_ {\ mathcal {C}} = 1}
więc nie jest
do
klasą
GC w odniesieniu P .
Zobacz też
Dalsza lektura
Dudley, RM (1999). Jednolite centralne twierdzenia graniczne . Wydawnictwo Uniwersytetu Cambridge. ISBN 0-521-46102-2 .
Pitman, EJG (1979). „Funkcja dystrybucji próbek”. Niektóre podstawowe teorie wnioskowania statystycznego . Londyn: Chapman i Hall. P. 79–97. ISBN 0-470-26554-X .
Shorack, GR; Wellner, JA (1986). Procesy empiryczne z zastosowaniami w statystyce . Wileya. ISBN 0-471-86725-X .
van der Vaart, AW ; Wellner, JA (1996). Słaba konwergencja i procesy empiryczne . Skoczek. ISBN 0-387-94640-3 .
van der Vaart, Aad W.; Wellner, Jon A. (1996). Twierdzenia Glivenko-Cantelliego . Skoczek.
van der Vaart, Aad W.; Wellner, Jon A. (2000). Twierdzenia o zachowaniu dla klas Glivenko – Cantelli i jednolitych klas Glivenko – Cantelli . Skoczek.