Koncepcja prawdopodobieństwa i informatyki
W teorii prawdopodobieństwa i informatyce teoretycznej nierówność McDiarmida jest nierównością koncentracji , która ogranicza odchylenie między próbkowaną wartością a oczekiwaną wartością pewnych funkcji, gdy są one oceniane na podstawie niezależnych zmiennych losowych . Nierówność McDiarmida dotyczy funkcji spełniających ograniczone różnice właściwość, co oznacza, że zastąpienie pojedynczego argumentu funkcji, przy pozostawieniu wszystkich pozostałych argumentów bez zmian, nie może spowodować zbyt dużej zmiany wartości funkcji.
Oświadczenie
Funkcja
fa :
X
1
×
X
2
× ⋯ ×
X
n
→
R
{\ Displaystyle f: {\ mathcal {X}} _ {1} \ razy {\ mathcal {X}} _ {2} \ razy \ cdots \ razy {\ mathcal {X}} _ {n} \ rightarrow \ mathbb {R}}
spełnia właściwość ograniczonych różnic , jeśli zastępuje się wartość współrzędnej
th i
{\ displaystyle i}
zmienia się
x
ja
{\ displaystyle x_ {i}}
wartość co najwyżej o
fa
{\ displaystyle f}
c .
ja
{\ displaystyle c_ {i}}
.
{
∈ [
Bardziej
wszystkich
Displaystyle i\w [n]}
n
\
]
ja
stałe
takie
,
formalnie
,
że
jeśli
istnieją dla , i wszystkie
x
1
∈
X
1
,
x
2
∈
X
2
, … ,
x
n
∈
X
n
{\ Displaystyle x_ {1} \ w {\ mathcal {X}} _ {1}, \, x_ {2} \ w {\ mathcal {X}} _ {2}, \, \ ldots, \, x_ { n}\w {\mathcal {X}}_{n}}
,
sup
x
ja
′
∈
X
ja
|
fa (
x
1
, … ,
x
ja - 1
,
x
ja
,
x
ja + 1
, ... ,
x
n
) - fa (
x
1
, ... ,
x
ja - 1
,
x
ja
′
,
x
ja +
1
, … ,
x
n
)
|
≤
do
ja
.
{\ Displaystyle \ sup _ {x_ {i} '\ w {\ mathcal {X}} _ {i}} \ lewo | f (x_ {1}, \ kropki, x_ {i-1}, x_ {i} ,x_{i+1},\ldots ,x_{n})-f(x_{1},\dots ,x_{i-1},x_{i}',x_{i+1},\ldots , x_{n})\prawo|\równoważnik c_{i}.}
Nierówność McDiarmida - Niech
f :
X
1
×
X
2
× ⋯ ×
X
n
→
R
{\ Displaystyle f: {\ mathcal {X}} _ {1} \ razy {\ mathcal {X}} _ {2} \ razy \ cdots \times {\ mathcal {X}} _ {n} \ rightarrow \ mathbb {R}}
spełniają właściwość ograniczonych różnic z granicami
do
1
,
do
2
, … ,
do
n
{\ Displaystyle c_ {1}, c_ {2 },\kropki ,c_{n}}
.
zmienne
Rozważ
losowe
X
ja
{\ mathcal {X}} _ {i}}
niezależne gdzie
X_
}
in
\
{
{
\
X
∈
ja
i
Displaystyle dla wszystkich
ja
{\ displaystyle i}
. Następnie, dla dowolnego ,
ε >
0
{\ displaystyle \ varepsilon > 0
}
P.
(
fa (
X
1
,
X
2
, … ,
X
n
) -
mi
[ fa (
X
1
,
X
2
, … ,
X
n
) ] ≥ ε
)
≤ exp
(
-
2
ε
2
∑
ja = 1
n
do
ja
2
)
,
{\ Displaystyle {\ tekst {P}} \ lewo (f (X_ {1}, X_ {2}, \ ldots, X_ {n}) - \ mathbb {E} [f (X_ {1}, X_ {2} },\ldots,X_{n})]\geq \varepsilon \right)\leq \exp \left(-{\frac {2\varepsilon ^{2}}{\sum _{i=1}^{n }c_{i}^{2}}}\right),}
P
( fa (
X
1
,
X
2
, … ,
X
n
) -
mi
[ fa (
X
1
,
X
2
, … ,
X
n
) ] ≤ - ε ) ≤
exp
(
-
2
ε
2
∑
ja = 1
n
do ja
2
)
,
{
\ Displaystyle {\ tekst {P}} (f (X_ {1}, X_ {2}, \ ldots, X_ {n}) - \ mathbb {E} [f(X_{1},X_{2},\ldots,X_{n})]\leq -\varepsilon )\leq \exp \left(-{\frac {2\varepsilon ^{2 }}{\sum _{i=1}^{n}c_{i}^{2}}}\right),}
i jako bezpośrednia konsekwencja
P.
(
|
fa (
X
1
,
X
2
, … ,
X
n
) -
mi
[ fa (
X
1
,
X
2
, … ,
X
n
) ]
|
≥ ε ) ≤ 2 exp
(
-
2
ε
2
∑
ja = 1
n
c
ja
2
)
.
{\ Displaystyle {\ tekst {P}} (| f (X_ {1}, X_ {2}, \ ldots, X_ {n}) - \ mathbb {E} [f (X_ {1}, X_ {2} ,\ldots ,X_{n})]|\geq \varepsilon )\równoważnik 2\exp \left(-{\frac {2\varepsilon ^{2}}{\sum _{i=1}^{n} c_{i}^{2}}}\prawo).}
Rozszerzenia
Rozkłady niezrównoważone
Silniejsze ograniczenie można podać, gdy argumenty funkcji są próbkowane z niezrównoważonych rozkładów, tak że ponowne próbkowanie pojedynczego argumentu rzadko powoduje dużą zmianę wartości funkcji.
Nierówność McDiarmida (niezrównoważona) - Niech właściwość ograniczonych różnic spełnia granice
c
1
,
c
2 ,
} … ,
do
n
{\ Displaystyle c_ {1}, c_ {2}, \ kropki, c_ {n}}
fa :
X
n
→
R
{\ Displaystyle f: {\ mathcal {X}} ^ {n} \ rightarrow \ mathbb {R}
.
Rozważ niezależne zmienne losowe
X
1
,
X
2
, … ,
X
n
∈
X
{\ Displaystyle X_ {1}, X_ {2}, \ ldots, X_ {n} \ in {\ mathcal {X}}}
narysowane z rozkładu gdzie istnieje określona wartość , która występuje z prawdopodobieństwem
}
Displaystyle
}
χ
\ chi _ {0} \ in {\ mathcal {X
∈
0
{ \
}
. Następnie, dla dowolnego ,
ε >
0
{\ displaystyle \ varepsilon > 0
}
P.
(
|
fa (
X
1
, … ,
X
n
) -
mi
[ fa (
X
1
, … ,
X
n
) ]
|
≥ ε ) ≤ 2 exp
(
-
ε
2
2 p ( 2 - p )
∑
ja = 1
n
c
ja
2
+
2 3
ε
maks
ja
do
ja
)
.
{\ Displaystyle {\ tekst {P}} (| f (X_ {1}, \ ldots, X_ {n}) - \ mathbb {E} [f (X_ {1}, \ ldots, X_ {n})] |\geq \varepsilon )\równoważnik 2\exp \left({\frac {-\varepsilon ^{2}}{2p(2-p)\sum _{i=1}^{n}c_{i}^ {2}+{\frac {2}{3}}\varepsilon \max _{i}c_{i}}}\right).}
Można to wykorzystać na przykład do scharakteryzowania wartości funkcji na wykresach , gdy są one oceniane na rzadkich losowych wykresach i hipergrafach , ponieważ na rzadkim grafie losowym jest znacznie bardziej prawdopodobne, że brakuje jakiejkolwiek określonej krawędzi niż jest obecna.
Różnice ograniczone dużym prawdopodobieństwem
Nierówność McDiarmida można rozszerzyć na przypadek, w którym analizowana funkcja nie spełnia ściśle własności różnic ograniczonych, ale duże różnice pozostają bardzo rzadkie.
Nierówność McDiarmida (różnice ograniczone z dużym prawdopodobieństwem) - Niech
fa :
X
1
×
X
2
× ⋯ ×
X
n
→
R
{\ Displaystyle f: {\ mathcal {X}} _ {1} \ razy {\ mathcal {X}} _{2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} } będzie
funkcją i
Y
⊆
X
1
×
X
2
× ⋯ ×
X
n
{\ Displaystyle {\ mathcal {Y}} \ subseteq {\ mathcal {X}} _ {1} \ razy {\ mathcal {X}} _ {2} \ razy \ cdots \ razy {\ mathcal {X}} _ {n}}
będzie podzbiorem jego dziedziny i niech do
będą
1
,
do
2
, … ,
do
n
≥
0
{\ Displaystyle c_ {1}, c_ {2}, \ kropki, c_ {n} \ geq 0}
stałymi takimi że dla wszystkich par
(
x
1
, … ,
x
n
) ∈
Y
{\ Displaystyle (x_ {1}, \ ldots, x_ {n}) \ in {\ mathcal {Y}}}
i
(
x
1
′
, … ,
x
n
′
) ∈
Y
{\ Displaystyle (x'_ {1}, \ ldots, x'_ {n}) \ w {\ mathcal {Y}}}
,
|
fa (
x
1
, … ,
x
n
) - fa (
x
1
′
, … ,
x
n
′
)
|
≤
∑
ja :
x
ja
≠
x
ja
′
do
ja
.
{\ Displaystyle \ lewo | f (x_ {1}, \ ldots, x_ {n}) - f (x'_ {1}, \ ldots, x'_ {n}) \ prawo | \ równoważnik \ suma _ { i:x_{i}\neq x'_{i}}c_{i}.}
zmienne
Rozważ
losowe
X
ja
{\ mathcal {X}} _ {i}}
niezależne gdzie
X_
}
in
\
{
{
\
X
∈
ja
i
Displaystyle dla wszystkich
ja
{\ displaystyle i}
. Niech
p = 1 -
P.
( (
X
1
, … ,
X
n
) ∈
Y
)
{\ Displaystyle p = 1-\ operatorname {P} ((X_ {1}, \ ldots, X_ {n}) \ in {\ mathcal {Y}})} i
niech
m =
mi
[ fa (
X
1
, … ,
X
n
) ∣ (
X
1
, … ,
X
n
) ∈
Y
]
{\ Displaystyle m = \ mathbb {E} [f (X_ {1}, \ ldots, X_ {n}) \ mid (X_ {1} ,\ldots ,X_{n})\w {\mathcal {Y}}]}
. Następnie, dla dowolnego ,
ε >
0
{\ displaystyle \ varepsilon > 0
}
P.
(
fa (
X
1
, … ,
X
n
) - m ≥ ε
)
≤ p + exp
(
-
2 max
(
0
, ε - p
∑
ja = 1
n
do
ja
)
2
∑
ja = 1
n
do
ja
2
)
,
{\ Displaystyle {\ text {P}} \ lewo (f (X_ {1}, \ ldots, X_ {n}) -m \ geq \ varepsilon \ prawej) \ równoważnik p + \ exp \ lewo (- {\ frac { 2\max \left(0,\varepsilon -p\sum _{i=1}^{n}c_{i}\right)^{2}}{\sum _{i=1}^{n}c_ {i}^{2}}}\prawo),}
i jako bezpośrednia konsekwencja
P.
(
|
fa (
X
1
, … ,
X
n
) - m
|
≥ ε ) ≤ 2 p + 2 exp
(
-
2 max
(
0
, ε - p
∑
ja = 1
n
do
ja
)
2
∑
ja = 1
n
do
ja
2
)
.
{\ Displaystyle {\ tekst {P}} (| f (X_ {1}, \ ldots, X_ {n}) - m | \ geq \ varepsilon ) \ równoważnik 2 p + 2 \ exp \ lewo (- {\ Frac {2 \ max \ lewo (0, \ varepsilon - p \ suma _ {i = 1} ^ {n} c_ {i} \ prawo) ^ {2}} {\ suma _ {i = 1} ^ {n} c_{i}^{2}}}\prawo).}
Istnieją silniejsze udoskonalenia tej analizy w niektórych scenariuszach zależnych od dystrybucji, takich jak te, które pojawiają się w teorii uczenia się .
Normy subgaussowskie i subwykładnicze
Niech
k
{\
ta wyśrodkowana warunkowa wersja funkcji będzie
displaystyle
k}
fa
k
( X ) ( x ) := fa (
x
1
, … ,
x
k - 1
,
X
k
,
x
k + 1
, … ,
x
n
) -
mi
X
k
′
fa (
x
1
, ... ,
x
k - 1
,
Xk
_
′
,
x
k + 1
, … ,
x
n
) ,
{\ Displaystyle f_ {k} (X) (x): = f (x_ {1}, \ ldots, x_ {k-1}, X_ {k}, x_{k+1},\ldots ,x_{n})-\mathbb {E} _{X'_{k}}f(x_{1},\ldots ,x_{k-1},X'_ {k},x_{k+1},\ldkropki,x_{n}),}
więc
fa
k
( X )
{\ Displaystyle f_ {k} (X)}
jest zmienną losową zależną od losowych wartości
x
1
, … ,
x
k - 1
,
x
k + 1
, … ,
x
n
{\ Displaystyle x_ {1},\ldots,x_{k-1},x_{k+1},\ldots,x_{n}}
.
Nierówność McDiarmida (norma subgaussowska) - Niech
fa :
X
1
×
X
2
× ⋯ ×
X
n
→
R
{\ Displaystyle f: {\ mathcal {X}} _ {1} \ razy {\ mathcal {X}} _ {2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} }
będzie funkcją. Rozważ niezależne zmienne losowe
X = (
X
1
,
X
2
, … ,
X
n
)
{\ Displaystyle X = (X_ {1}, X_ {2}, \ kropki, X_ {n})}
gdzie
X
ja
∈
X
ja
{\ Displaystyle X_ {i} \ w {\ mathcal {X}} _ {i }}
dla wszystkich
ja
{\ displaystyle i}
.
Niech odnosi się do wyśrodkowanej warunkowej wersji
fa
\ Displaystyle
k
{
( X ) {
k} (X)
f_
}
. Niech
oznaczają
normę
losowej
subgaussowską
zmiennej
_
. _ _
Następnie, dla dowolnego ,
ε >
0
{\ displaystyle \ varepsilon > 0
}
P.
(
fa (
X
1
, … ,
X
n
) - m ≥ ε
)
≤ exp
(
-
ε
2
32 mi
‖
∑
k ∈ [ n ]
‖
fa
k
( X )
‖
ψ
2
2
‖
∞
)
.
{\ Displaystyle {\ tekst {P}} \ lewo (f (X_ {1}, \ ldots, X_ {n}) -m \ geq \ varepsilon \ prawej) \ równoważnik \ exp \ lewo ({\ frac {- \ varepsilon ^{2}}{32e\left\|\suma _{k\in [n]}\|f_{k}(X)\|_{\psi _{2}}^{2}\right\ |_{\infty}}}\prawo).}
Nierówność McDiarmida (norma podwykładnicza) - Niech
fa :
X
1
×
X
2
× ⋯ ×
X
n
→
R
{\ Displaystyle f: {\ mathcal {X}} _ {1} \ razy {\ mathcal {X}} _ {2}\times \cdots \times {\mathcal {X}}_{n}\rightarrow \mathbb {R} }
będzie funkcją. Rozważ niezależne zmienne losowe
X = (
X
1
,
X
2
, … ,
X
n
)
{\ Displaystyle X = (X_ {1}, X_ {2}, \ kropki, X_ {n})}
gdzie
X
ja
∈
X
ja
{\ Displaystyle X_ {i} \ w {\ mathcal {X}} _ {i }}
dla wszystkich
ja
{\ displaystyle i}
.
Niech odnosi się do wyśrodkowanej warunkowej wersji
fa
\ Displaystyle
k
{
( X ) {
k} (X)
f_
}
. Niech
oznaczają
normę
podwykładniczą
losowej
zmiennej
_
.
Następnie dla dowolnego ,
ε >
0
{\ displaystyle \ varepsilon > 0
}
P.
(
fa (
X
1
, … ,
X
n
) - m ≥ ε
)
≤ exp
(
-
ε
2
4
mi
2
‖
∑
k ∈ [ n ]
‖
fa
k
( X )
‖
ψ
1
2
‖
∞
+ 2 ε mi
maks
k ∈
[ n ]
‖
‖
fa
k
( X )
‖
ψ
1
‖
∞
)
.
{\ Displaystyle {\ text {P}} \ lewo (f (X_ {1}, \ ldots, X_ {n}) -m \ geq \ varepsilon \ prawej) \ równoważnik \ exp \ lewo ({\ Frac {- \ varepsilon ^ {2}} {4e ^ {2} \ lewo \ | \ suma _ {k \ in [n]} \ | f_ {k} (X) \ | _ {\ psi _ {1}} ^ {2}\right\|_{\infty }+2\varepsilon e\max _{k\in [n]}\left\|\|f_{k}(X)\|_{\psi _{1}}\right\|_{\infty }}}\right).}
Formy Bennetta i Bernsteina
Udoskonalenia nierówności McDiarmida w stylu nierówności Bennetta i nierówności Bernsteina są możliwe dzięki zdefiniowaniu terminu wariancji dla każdego argumentu funkcji. Pozwalać
b
:=
max
k ∈ [ n ]
sup
x
1
, … ,
x
k - 1
,
x
k + 1
, … ,
x
n
|
fa (
x
1
, … ,
x
k - 1
,
X
k
,
x
k + 1
, … ,
x
n
) -
mi
X
k
fa (
x
1
, … ,
x
k - 1
,
X
k
,
x
k + 1
, … ,
x
n
)
|
,
V
k
:=
sup
x
1
, … ,
x
k - 1
,
x
k + 1
, … ,
x
n
mi
X
k
(
fa (
x
1
, … ,
x
k - 1
,
X
k
,
x
k + 1
, … ,
x
n
) -
mi
X
k
fa (
x
1
, … ,
x
k - 1
,
X
k
,
x
k +
1
, … ,
x
n
)
)
2
,
σ ~
2
:=
∑
k = 1
n
V
k
.
{\ Displaystyle {\ rozpocząć {wyrównane} B &: = \ max _ {k \ w [n]} \ sup _ {x_ {1}, \ kropki, x_ {k-1}, x_ {k + 1}, \ kropki, x_ {n}} \ lewo | f (x_ {1}, \ kropki, x_ {k-1}, X_ {k}, x_ {k + 1}, \ kropki, x _{n})-\mathbb {E} _{X_{k}}f(x_{1},\kropki ,x_{k-1},X_{k},x_{k+1},\kropki ,x_{n})\right|,\\V_{k}&:=\sup _{x_{1},\kropki ,x_{k-1},x_{k+1},\kropki ,x_{n}}\mathbb {E} _{X_{k}}\left(f(x_{1},\kropki ,x_{k-1},X_{k},x_{k+1},\kropki ,x_{n})-\mathbb {E} _{X_{k}}f(x_{1},\kropki ,x_{k-1},X_{k},x_{ k+1},\kropki ,x_{n})\right)^{2},\\{\tylda {\sigma }}^{2}&:=\sum _{k=1}^{n}V_{k}.\end{wyrównane}}}
Nierówność McDiarmida (forma Bennetta) - Niech właściwość różnic ograniczonych spełnia granice
c
1
,
c
2
, … ,
do
n
{\ Displaystyle c_ {1}, c_ {2}, \ kropki, c_ {n}}
fa :
X
n
→
R
{\ Displaystyle f: {\ mathcal {X}} ^ {n} \ rightarrow \ mathbb {R}
. Rozważ niezależne zmienne losowe
X
1
,
X
2
, … ,
X
n
{\ Displaystyle X_ {1}, X_ {2}, \ kropki, X_ {n}}
gdzie
X
ja
∈
X
ja
{\ Displaystyle X_ {i} \ w {\ mathcal {X}} _ {i}}
dla wszystkich
ja
{\ displaystyle i}
. Niech
i
tej
będą
zdefiniowane
sekcji
jak
.
na początku
Następnie, dla dowolnego ,
ε >
0
{\ displaystyle \ varepsilon > 0
}
P.
( fa (
X
1
, … ,
X
n
) -
mi
[ fa (
X
1
, … ,
X
n
) ] ≥ ε ) ≤ exp
(
-
ε
2 b
log
(
1 +
b ε
σ ~
2
)
)
.
{\ Displaystyle {\ tekst {P}} (f (X_ {1}, \ ldots, X_ {n}) - \ mathbb {E} [f (X_ {1}, \ ldots, X_ {n})] \ geq \varepsilon )\leq \exp \left(-{\frac {\varepsilon }{2B}}\log \left(1+{\frac {B\varepsilon}}{{\tilde {\sigma}}^{2 }}}\prawo)\prawo).}
c
-
ograniczonych
2
Nierówność
, … ,
do
n
{\ Displaystyle c_ {1}, c_ {2}, \ kropki, c_ {n}}
McDiarmida (forma
różnic
1
spełnia
,
Bernsteina
)
c
Niech właściwość granice . Niech
b
{\ Displaystyle B}
i
σ ~
2
{\ Displaystyle {\ tylda {\ sigma}} ^ {2}}
być zdefiniowane jak na początku tej sekcji.
Następnie dla dowolnego ,
ε >
0
{\ displaystyle \ varepsilon > 0
}
P.
( fa (
X
1
, … ,
X
n
) -
mi
[ fa (
X
1
, … ,
X
n
) ] ≥ ε ) ≤ exp
(
-
ε
2
2
(
σ ~
2
+
b ε
3
)
)
.
{\ Displaystyle {\ tekst {P}} (f (X_ {1}, \ ldots, X_ {n}) - \ mathbb {E} [f (X_ {1}, \ ldots, X_ {n})] \ geq \varepsilon )\leq \exp \left(-{\frac {\varepsilon ^{2}}{2\left({\tylda {\sigma}}^{2}+{\frac {B\varepsilon}}{ 3}}\prawo)}}\prawo).}
Dowód
Poniższy dowód nierówności McDiarmida konstruuje martyngał Dooba śledzący warunkową wartość oczekiwaną funkcji w miarę próbkowania i warunkowania coraz większej liczby jej argumentów, a następnie stosuje nierówność koncentracji martyngału ( nierówność Azumy ). Istnieje również alternatywny argument unikający używania martyngałów, wykorzystujący niezależność argumentów funkcji, aby zapewnić podobny do Chernoffa .
Dla lepszej czytelności wprowadzimy skrót notacyjny:
z
ja ⇁ jot
{\ Displaystyle Z_ {i \ rightharpoondown j}}
,
będzie
dla
dowolnych
i
oznaczać
z
ja
, … ,
z
jot
{\ Displaystyle z_ {i}, \ kropki, z_ {j}}
liczb całkowitych
1 ≤ ja ≤ jot ≤ n {
\ Displaystyle 1 \ równoważnik i \ równoważnik j \ równoważnik n}
tak że na przykład
fa (
X
1 ⇁ ( ja - 1 )
, y ,
x
( ja + 1 ) ⇁ n
) := fa (
X
1
, ... ,
X
ja - 1
, y ,
x
ja + 1
, ... ,
x
n
) .
{\ Displaystyle f (X_ {1 \ rightharpoondown (i-1)}, y, x_ {(i + 1) \ rightharpoondown n}): = f (X_ {1}, \ ldots, X_ {i-1}, y,x_{i+1},\ldkropki,x_{n}).}
Wybierz dowolny
x
1
′
,
x
2
′
, … ,
x
n
′
{\ Displaystyle x_ {1} ', x_ {2} ', \ ldots, x_ {n}'}
. Następnie dla dowolnego
x
1
,
x
2
, … ,
x
n
{\ Displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}}
przez nierówność trójkąta ,
|
fa (
x
1 ⇁ n
) - fa (
x
1 ⇁ n
′
)
|
≤
|
fa (
x
1 ⇁ n
) - fa (
x
1 ⇁ ( n - 1 )
′
,
x
n
)
|
+
do
n
≤
|
fa (
x1
_
⇁ n
) - fa (
x
1 ⇁ ( n - 2 )
′
,
x
( n - 1 ) ⇁ n
)
|
+
do
n - 1
+
do
n
≤
…
≤
∑
ja = 1
n
do
ja
,
{\ Displaystyle {\ rozpocząć {wyrównane} & | f (x_ {1 \ rightharpoondown n}) - f (x'_ {1 \ rightharpoondown n}) |\\ [6pt] \ równoważnik {} & | f (x_ { 1\rightharpoondown \,n})-f(x'_{1\rightharpoondown (n-1)},x_{n})|+c_{n}\\\leq {}&|f(x_{1\ rightharpoondown n})-f(x'_{1\rightharpoondown (n-2)},x_{(n-1)\rightharpoondown n})|+c_{n-1}+c_{n}\\\leq {}&\ldots \\\leq {}&\sum _{i=1}^{n}c_{i},\end{wyrównane}}}
a zatem
jest
ograniczony
.
Ponieważ
jest
jest ograniczony,
}
fa
zdefiniuj
\ displaystyle f
(
martyngał Dooba każdy
{
zmienną
losową zależną od losowej zmiennej wartości
X
1
, … ,
X
ja
{\ Displaystyle X_ {1}, \ ldots, X_ {i}} )
jako
Z
ja
: =
mi
[ fa (
X
1 ⇁ n
) ∣
X
1 ⇁ ja
]
{\ Displaystyle Z_ {i}: = \ mathbb {E} [f (X_ {1 \ rightharpoondown n}) \ mid X_ {1 \ rightharpoondown i}]}
ja
≥ 1
)
{\ Displaystyle i \ geq 1}
i
Z
0
: =
mi
[ fa (
X
1 ⇁ n
n
]
{\ Displaystyle Z_ {0}: = \ mathbb {E} [f (X_ {1 \ rightharpoondown })]}
, tak że
Z
n
= fa (
X
1 ⇁ n
)
{\ Displaystyle Z_ {n} = f (X_ {1 \ rightharpoondown n})}
.
Teraz zdefiniuj zmienne losowe dla każdego
ja
{\ displaystyle i}
U
ja
:=
sup
x ∈
X
ja
mi
[ fa (
X
1 ⇁ ( ja - 1 )
, x ,
X
( ja + 1 ) ⇁ n
) ∣
X
1 ⇁ ( ja - 1 )
,
X
ja
= x ] -
[
fa (
X
1
⇁ ( ja - 1 )
,
X
ja ⇁ n
) ∣
X
1 ⇁ ( ja - 1 )
] ,
L
ja
:=
inf
x ∈
X
ja
mi
[ fa (
X
1 ⇁ ( ja - 1 )
, x ,
X
( ja + 1 ) ⇁
n
) ∣
X
1 ⇁ ( ja - 1 )
,
X
ja
= x ] -
[
fa (
X
1 ⇁ ( ja - 1 )
,
X
ja ⇁ n
) ∣
X
1 ⇁ ( ja - 1 )
] .
{\ Displaystyle {\ rozpocząć {wyrównane} U_ {i} &: = \ sup _ {x \ w {\ mathcal {X}} _ {i}} \ mathbb {E} [f (X_ {1 \ rightharpoondown (i -1)},x,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)},X_{i}=x]-\mathbb {[} f(X_{ 1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}],\\L_{i}&:=\inf _{x\in { \mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},x,X_{(i+1)\rightharpoondown n})\mid X_{1 \rightharpoondown (i-1)},X_{i}=x]-\mathbb {[} f(X_{1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\ rightharpoondown (i-1)}].\\\end{aligned}}}
Ponieważ
X
ja
, … ,
X
n
{\ Displaystyle X_ {i}, \ ldots, X_ {n}}
są od siebie niezależne, warunkowanie na
X
ja
= x {\ Displaystyle X_ {i} = x}
{\ displaystyle X_ {i} = x}
nie wpływa na X ja = x prawdopodobieństw innych zmiennych, więc są one równe wyrażeniom
U
ja
=
sup
x ∈
X
ja
mi
[ fa (
X
1 ⇁ ( ja - 1 )
, x ,
X
( ja + 1 ) ⇁ n
) - fa (
X
1 ⇁ ( ja - 1 )
,
X
ja ⇁ n
) ∣
X
1 ⇁
( ja - 1 )
] ,
L
ja
=
inf
x ∈
X
ja
mi
[ fa (
X
1 ⇁ ( ja - 1 )
, x ,
X
( ja + 1 ) ⇁ n
) - fa (
X
1 ⇁ ( ja - 1 )
,
X
ja
⇁ n
) ∣
X
1 ⇁ ( ja - 1 )
] .
{\ Displaystyle {\ rozpocząć {wyrównane} U_ {i} & = \ sup _ {x \ w {\ mathcal {X}} _ {i}} \ mathbb {E} [f (X_ {1 \ rightharpoondown (i- 1)},x,X_{(i+1)\rightharpoondown n})-f(X_{1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\rightharpoondown (i -1)}],\\L_{i}&=\inf _{x\in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1 )},x,X_{(i+1)\rightharpoondown n})-f(X_{1\rightharpoondown (i-1)},X_{i\rightharpoondown n})\mid X_{1\rightharpoondown (i- 1)}].\\\end{wyrównane}}}
Zauważ, że
L
ja
≤
Z
ja
-
Z
ja - 1
≤
U
ja
{\ Displaystyle L_ {i} \ równoważnik Z_ {i} -Z_ {i-1} \ równoważnik U_ {i}}
. Ponadto,
U
ja
-
L
ja
=
sup
u ∈
X
ja
, ℓ ∈
X
ja
mi
[ fa (
X
1 ⇁ ( ja - 1 )
, u ,
X
( ja + 1 ) ⇁ n
) ∣
X
1 ⇁ ( ja - 1 )
] −
E
[
fa (
X
1 ⇁ ( ja - 1 )
, ℓ ,
X
( ja + 1 ) ⇁ n
) ∣
X
1 ⇁ ( ja - 1 )
]
=
sup
u ∈
X
ja
, ℓ ∈
X
ja
mi
[ fa (
X
1 ⇁ ( ja −
1 )
, u ,
X
( ja + 1 ) ⇁ n
) - fa (
X
1 ⇁ ( ja - 1 )
, l ,
X
( ja + 1 ) ⇁ n
) ∣
X
1 ⇁ ( ja - 1 )
]
≤
sup
x
u
∈
X
ja
,
x
l
∈
X
ja
mi
[
do
ja
∣
X
1 ⇁ ( ja - 1 )
]
≤
do
ja
{\ Displaystyle {\ rozpocząć {wyrównane} U_ {i} -L_ {i} & = \ sup _ {u \ w {\ mathcal {X}} _ {i}, \ ell \ w {\ mathcal {X}} _{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},u,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1 )}]-\mathbb {E} [f(X_{1\rightharpoondown (i-1)},\ell ,X_{(i+1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1 )}]\\[6pt]&=\sup _{u\in {\mathcal {X}}_{i},\ell \in {\mathcal {X}}_{i}}\mathbb {E} [f(X_{1\rightharpoondown (i-1)},u,X_{(i+1)\rightharpoondown n})-f(X_{1\rightharpoondown (i-1)},l,X_{(i +1)\rightharpoondown n})\mid X_{1\rightharpoondown (i-1)}]\\&\leq \sup _{x_{u}\in {\mathcal {X}}_{i},x_ {l}\in {\mathcal {X}}_{i}}\mathbb {E} [c_{i}\mid X_{1\rightharpoondown (i-1)}]\\[6pt]&\leq c_ {i}\end{wyrównane}}}
Następnie, stosując ogólną postać nierówności Azumy do , mamy
{
Z
ja
}
{\ Displaystyle \ lewo \ {Z_ {i} \ prawo \}}
P.
( fa (
X
1
, … ,
X
n
) -
mi
[ fa (
X
1
, … ,
X
n
) ] ≥ ε ) = P (
Z
n
-
Z
0
≥ ε ) ≤ exp
(
-
2
ε
2
∑
ja = 1
n
c
i
2
)
.
{\ Displaystyle {\ tekst {P}} (f (X_ {1}, \ ldots, X_ {n}) - \ mathbb {E} [f (X_ {1}, \ ldots, X_ {n})] \ geq \varepsilon )=\operatorname {P} (Z_{n}-Z_{0}\geq \varepsilon )\leq \exp \left(-{\frac {2\varepsilon ^{2}}{\sum _{ i=1}^{n}c_{i}^{2}}}\prawo).}
Jednostronne ograniczenie w drugim kierunku uzyskuje się przez zastosowanie nierówności Azumy do
{
-
Z
ja
}
{\ Displaystyle \ lewo \ {-Z_ {i} \ prawo \}},
a dwustronne ograniczenie wynika z ograniczenia łączącego .
◻
{\ Displaystyle \ kwadrat}
Zobacz też