W klasyfikacji statystycznej klasyfikator Bayesa minimalizuje prawdopodobieństwo błędnej klasyfikacji.
Definicja
Załóżmy, że para przyjmuje wartości w , gdzie jest etykietą klasy . Załóżmy, że rozkład warunkowy X , biorąc pod uwagę, że etykieta Y przyjmuje wartość r , jest określony przez
-
dla
gdzie „ oznacza „ się jako”, a oznacza
Klasyfikator to reguła, która przypisuje obserwacji X = x przypuszczenie lub oszacowanie tego, czym w rzeczywistości była nieobserwowana etykieta Y = r . mierzalną , z interpretacją, że C klasyfikuje punkt x do klasy C ( x ). Prawdopodobieństwo błędnej klasyfikacji lub ryzyko klasyfikatora C jest zdefiniowane jako
Klasyfikator Bayesa jest
W praktyce, podobnie jak w większości statystyk, trudności i subtelności są związane z efektywnym modelowaniem rozkładów prawdopodobieństwa - w tym przypadku . Klasyfikator Bayesa jest użytecznym wzorcem w klasyfikacji statystycznej .
Nadmierne ryzyko ogólnego klasyfikatora w zależności od niektórych danych treningowych) jest zdefiniowane jako ta nieujemna wielkość jest ważna dla oceny wydajności różnych technik klasyfikacji . Mówi się, że klasyfikator jest spójny , jeśli nadmiar ryzyka zbiega się do zera, gdy rozmiar zbioru danych treningowych dąży do nieskończoności.
że składniki niezależne, otrzymujemy naiwny klasyfikator Bayesa
Dowód optymalności
Dowód, że klasyfikator Bayesa jest optymalny, a stopa błędów Bayesa jest minimalna, przebiega w następujący sposób.
Zdefiniuj zmienne: Ryzyko , ryzyko Bayesa można sklasyfikować punkty . Niech późniejsze prawdopodobieństwo punktu należącego do klasy 1 będzie równe . Zdefiniuj klasyfikator jako h
Następnie mamy następujące wyniki:
(a) , czyli jest klasyfikatorem Bayesa,
(b) Dla nadwyżka ryzyka spełnia
(c)
Dowód (a): Dla mamy
(z powodu twierdzenia Fubiniego )
Zauważ, że jest zminimalizowany przez przyjęcie }
Dlatego minimalnym możliwym ryzykiem jest ryzyko Bayesa, }
Dowód (b):
Dowód (c):
Ogólny przypadek, w którym klasyfikator Bayesa minimalizuje błąd klasyfikacji, gdy każdy element może należeć do jednej z n kategorii, przebiega zgodnie z wysokimi oczekiwaniami w następujący sposób.
Jest to minimalizowane przez jednoczesne minimalizowanie wszystkich warunków oczekiwania przy użyciu klasyfikatora
dla każdej obserwacji x .
Zobacz też