Klasyfikator Bayesa

W klasyfikacji statystycznej klasyfikator Bayesa minimalizuje prawdopodobieństwo błędnej klasyfikacji.

Definicja

Załóżmy, że para przyjmuje wartości w $, \ kropki, K \}}$ $} {\ Displaystyle \ mathbb {R$ $^ {d} \$ ${\ displaystyle X$ , gdzie jest etykietą klasy $}$ . Załóżmy, że rozkład warunkowy X , biorąc pod uwagę, że etykieta Y przyjmuje wartość r , jest określony przez

{\ Displaystyle (X \ środkowy Y = r) \ sim P_ {r}}

dla

{\ Displaystyle r = 1,2, \ kropki, K}

gdzie „ oznacza „ $rozkłada$ się jako”, a $.$ oznacza

Klasyfikator to reguła, która przypisuje obserwacji X = x przypuszczenie lub oszacowanie tego, czym w rzeczywistości była nieobserwowana etykieta Y = r . $_ \}}$ mierzalną , z interpretacją, że C klasyfikuje punkt x do klasy C ( x ). Prawdopodobieństwo błędnej klasyfikacji lub ryzyko klasyfikatora C jest zdefiniowane jako

{\ Displaystyle {\ mathcal {R}} (C) = \ nazwa operatora {P} \ {C (X) \ neq Y \}.}

Klasyfikator Bayesa jest

{\ Displaystyle C ^ {\ text {Bayes}} (x) = {\ underset {r \ w \ {1,2, \ kropki, K \}} {\ nazwa operatora {argmax}}} \ nazwa operatora {P} ( Y=r\mid X=x).}

W praktyce, podobnie jak w większości statystyk, trudności i subtelności są związane z efektywnym modelowaniem rozkładów prawdopodobieństwa - w tym przypadku ${\ Displaystyle \ operatorname {P} (Y = r \ środek X=x)}$ . Klasyfikator Bayesa jest użytecznym wzorcem w klasyfikacji statystycznej .

Nadmierne ryzyko ogólnego klasyfikatora $prawdopodobnie$ w zależności od niektórych danych treningowych) jest zdefiniowane jako ${\ Displaystyle {\ mathcal {R}} (C) - {\ mathcal {R}} (C ^ {\ text {Bayes}}).} Zatem$ ta nieujemna wielkość jest ważna dla oceny wydajności różnych technik klasyfikacji . Mówi się, że klasyfikator jest spójny , jeśli nadmiar ryzyka zbiega się do zera, gdy rozmiar zbioru danych treningowych dąży do nieskończoności.

${\ Displaystyle C ^ {\ text {Bayes}} (x) = {\ underset {r \ w \ {1,2, \ kropki, K \}} {\ nazwa operatora {argmax}}} \ nazwa operatora {P} ( Y=r)\prod _{i=1}^{d}P_{r}(x).}$ że składniki $gdzie$ niezależne, otrzymujemy naiwny klasyfikator Bayesa $K$

Dowód optymalności

Dowód, że klasyfikator Bayesa jest optymalny, a stopa błędów Bayesa jest minimalna, przebiega w następujący sposób.

Zdefiniuj zmienne: Ryzyko , ryzyko Bayesa $\ Displaystyle$ $^ {*}}$ ${\ styl wyświetlania Y=\{0,1\}}$ można sklasyfikować punkty . Niech późniejsze prawdopodobieństwo punktu należącego do klasy 1 będzie równe ${\ Displaystyle \ eta (x) = Pr (Y = 1 | X = x)}$ . Zdefiniuj klasyfikator jako h $\ Displaystyle {\ mathcal {h}} ^ {*}}$

${\ Displaystyle {\ mathcal {h}} ^ {*} (x) = {\ rozpocząć {przypadki} 1 &, \ eta (x)\geqslant 0.5\\0&,\eta (x)<0.5\end{przypadki}}}$

Następnie mamy następujące wyniki:

(a) ${\ Displaystyle R (h ^ {*}) = R ^ {*}}$ , czyli ${\ Displaystyle h ^ {*}}$ jest klasyfikatorem Bayesa,

(b) Dla $klasyfikatora$ nadwyżka ryzyka spełnia ${\ Displaystyle R (h) -R ^ {*} = 2 \ mathbb {E} _ {X} \ lewo [|\ eta (x) -0,5 |\cdot \mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}\right]}$

(c) ${\ Displaystyle R ^ {*} = \ mathbb {E} _ {X} \ lewo [\ min (\ eta (X),1-\eta (X))\prawo]}$

Dowód (a): Dla $klasyfikatora$ mamy

${\ Displaystyle R (h) = \ mathbb {E} _ {XY} \ lewo [\ mathbb {I} _ {\ lewo \ { h(X)\neq Y\prawo\}}\prawo]}$

${\ Displaystyle = \ mathbb {E} _ {X} \ mathbb {E} _ {Y | X} [\ mathbb {I} _ {\ lewo \ {h ( X)\neq Y\right\}}]}$ (z powodu twierdzenia Fubiniego )

${\ Displaystyle = \ mathbb {E} _ {X} [\ eta (X)\mathbb {I} _{\left\{h(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h(X) )=1\prawo\}}]}$

Zauważ, że ${\ Displaystyle R (h)}$ jest zminimalizowany przez przyjęcie ${\ Displaystyle \ forall x \ in X$ }

$1 i \ eta (x) \ geqslant 1- \ eta (x )\\0&,{\text{inaczej}}\end{przypadki}}}$

Dlatego minimalnym możliwym ryzykiem jest ryzyko Bayesa, ${\ Displaystyle R ^ {*} = R (h ^ {*})$ }

Dowód (b):

${\ Displaystyle {\ rozpocząć {wyrównane} R (h) -R ^ {*} & = R (h) -R (h ^ {*}) \\ &=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h(X)=0\right\}}+(1-\eta (X))\ mathbb {I} _{\left\{h(X)=1\right\}}-\eta (X)\mathbb {I} _{\left\{h^{*}(X)=0\right \}}-(1-\eta (X))\mathbb {I} _{\left\{h^{*}(X)=1\right\}}]\\&=\mathbb {E} _ {X}[|2\eta (X)-1|\mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}]\\&=2 \mathbb {E} _{X}[|\eta (X)-0.5|\mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}] \end{wyrównane}}}$

Dowód (c):

${\ Displaystyle {\ rozpocząć {wyrównane} R (h ^ {*}) & = \ mathbb {E} _ {X} [\ eta (X) \ mathbb {I} _{\left\{h^{*}(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h*(X)=1\ prawo\}}]\\&=\mathbb {E} _{X}[\min(\eta (X),1-\eta (X))]\end{wyrównane}}}$

Ogólny przypadek, w którym klasyfikator Bayesa minimalizuje błąd klasyfikacji, gdy każdy element może należeć do jednej z n kategorii, przebiega zgodnie z wysokimi oczekiwaniami w następujący sposób.

${\ displaystyle {\begin{wyrównane}\mathbb {E} _{Y}(\mathbb {I} _{\{y\neq {\kapelusz {y}}\}})&=\mathbb {E} _{X }\mathbb {E} _{Y|X}\left(\mathbb {I} _{\{y\neq {\hat {y}}\}}|X=x\right)\\&=\mathbb {E} \left[Pr(Y=1|X=x)\mathbb {I} _{\{{\kapelusz {y}}=2,3,\kropki ,n\}}+Pr(Y=2 |X=x)\mathbb {I} _{\{{\kapelusz {y}}=1,3,\kropki ,n\}}+\kropki +Pr(Y=n|X=x)\mathbb { I} _{\{{\kapelusz {y}}=1,2,3,\kropki ,n-1\}}\right]\end{wyrównane}}}$

Jest to minimalizowane przez jednoczesne minimalizowanie wszystkich warunków oczekiwania przy użyciu klasyfikatora ${\ Displaystyle h (x) = k, \ quad \ arg \max _{k}Pr(Y=k|X=x)}$

dla każdej obserwacji x .

Zobacz też

Naiwny klasyfikator Bayesa