Klasyfikator Bayesa

W klasyfikacji statystycznej klasyfikator Bayesa minimalizuje prawdopodobieństwo błędnej klasyfikacji.

Definicja

Załóżmy, że para przyjmuje wartości w , gdzie jest etykietą klasy . Załóżmy, że rozkład warunkowy X , biorąc pod uwagę, że etykieta Y przyjmuje wartość r , jest określony przez

dla

gdzie „ oznacza „ się jako”, a oznacza

Klasyfikator to reguła, która przypisuje obserwacji X = x przypuszczenie lub oszacowanie tego, czym w rzeczywistości była nieobserwowana etykieta Y = r . mierzalną , z interpretacją, że C klasyfikuje punkt x do klasy C ( x ). Prawdopodobieństwo błędnej klasyfikacji lub ryzyko klasyfikatora C jest zdefiniowane jako

Klasyfikator Bayesa jest

W praktyce, podobnie jak w większości statystyk, trudności i subtelności są związane z efektywnym modelowaniem rozkładów prawdopodobieństwa - w tym przypadku . Klasyfikator Bayesa jest użytecznym wzorcem w klasyfikacji statystycznej .

Nadmierne ryzyko ogólnego klasyfikatora w zależności od niektórych danych treningowych) jest zdefiniowane jako ta nieujemna wielkość jest ważna dla oceny wydajności różnych technik klasyfikacji . Mówi się, że klasyfikator jest spójny , jeśli nadmiar ryzyka zbiega się do zera, gdy rozmiar zbioru danych treningowych dąży do nieskończoności.

że składniki niezależne, otrzymujemy naiwny klasyfikator Bayesa

Dowód optymalności

Dowód, że klasyfikator Bayesa jest optymalny, a stopa błędów Bayesa jest minimalna, przebiega w następujący sposób.

Zdefiniuj zmienne: Ryzyko , ryzyko Bayesa można sklasyfikować punkty . Niech późniejsze prawdopodobieństwo punktu należącego do klasy 1 będzie równe . Zdefiniuj klasyfikator jako h

Następnie mamy następujące wyniki:

(a) , czyli jest klasyfikatorem Bayesa,

(b) Dla nadwyżka ryzyka spełnia

(c)


Dowód (a): Dla mamy

(z powodu twierdzenia Fubiniego )

Zauważ, że jest zminimalizowany przez przyjęcie }

Dlatego minimalnym możliwym ryzykiem jest ryzyko Bayesa, }


Dowód (b):


Dowód (c):


Ogólny przypadek, w którym klasyfikator Bayesa minimalizuje błąd klasyfikacji, gdy każdy element może należeć do jednej z n kategorii, przebiega zgodnie z wysokimi oczekiwaniami w następujący sposób.

Jest to minimalizowane przez jednoczesne minimalizowanie wszystkich warunków oczekiwania przy użyciu klasyfikatora

dla każdej obserwacji x .

Zobacz też