Zasada klasyfikacji

Biorąc pod uwagę populację, której każdy członek należy do jednego z wielu różnych zbiorów lub klas , reguła klasyfikacji lub klasyfikator jest procedurą, za pomocą której przewiduje się, że każdy element zbioru populacji należy do jednej z klas. Idealna klasyfikacja to taka, dla której każdy element w populacji jest przypisany do klasy, do której naprawdę należy. Klasyfikacja niedoskonała to taka, w której pojawiają się błędy, a następnie do analizy klasyfikacji należy zastosować analizę statystyczną .

Szczególnym rodzajem reguły klasyfikacyjnej jest klasyfikacja binarna dla problemów, w których istnieją tylko dwie klasy.

Testowanie reguł klasyfikacji

Mając zbiór danych składający się z par x i y , gdzie x oznacza element populacji, a y klasę, do której należy, reguła klasyfikacji h ( x ) jest funkcją, która przypisuje każdemu elementowi x przewidywaną klasę Klasyfikacja binarna polega na tym, że etykieta y może przyjmować tylko jedną z dwóch wartości.

Prawdziwe etykiety y ja mogą być znane, ale niekoniecznie będą pasować do ich przybliżeń . W klasyfikacji binarnej elementy, które nie zostały poprawnie sklasyfikowane, nazywane są fałszywie dodatnimi i fałszywie ujemnymi.

Niektóre reguły klasyfikacji są funkcjami statycznymi. Inne mogą być programami komputerowymi. Klasyfikator komputerowy może uczyć się lub wdrażać statyczne reguły klasyfikacji. W przypadku zestawu danych szkoleniowych prawdziwe etykiety y j są nieznane, ale głównym celem procedury klasyfikacji jest przybliżenie tak dobrze, jak to możliwe, przy czym jakość tego przybliżenia należy ocenić na podstawie statystycznych lub probabilistycznych właściwości całej populacji, z której będą pochodzić przyszłe obserwacje zostanie narysowany.

Biorąc pod uwagę regułę klasyfikacyjną, test klasyfikacyjny jest wynikiem zastosowania reguły do ​​skończonej próbki początkowego zestawu danych.

Klasyfikacja binarna i wieloklasowa

Klasyfikacja może być traktowana jako dwa odrębne problemy — klasyfikacja binarna i klasyfikacja wieloklasowa . W klasyfikacji binarnej, która jest lepiej rozumianym zadaniem, zaangażowane są tylko dwie klasy, podczas gdy klasyfikacja wieloklasowa obejmuje przypisanie obiektu do jednej z kilku klas. Ponieważ wiele metod klasyfikacji zostało opracowanych specjalnie dla klasyfikacji binarnej, klasyfikacja wieloklasowa często wymaga łącznego użycia wielu klasyfikatorów binarnych. Ważną kwestią jest to, że w wielu praktycznych problemach klasyfikacji binarnej te dwie grupy nie są symetryczne - bardziej niż ogólna dokładność, interesująca jest względna proporcja różnych typów błędów. Na przykład w testach medycznych wynik fałszywie dodatni (wykrycie choroby, gdy jej nie ma) jest traktowany inaczej niż wynik fałszywie ujemny (niewykrycie choroby, gdy jest obecna). W klasyfikacjach wieloklasowych klasy mogą być rozpatrywane symetrycznie (wszystkie błędy są równoważne) lub asymetrycznie, co jest znacznie bardziej skomplikowane.

Metody klasyfikacji binarnej obejmują regresję probitową i regresję logistyczną . Metody klasyfikacji wieloklasowej obejmują wielomianowy probit i wielomianowy logit .

Matryca zamieszania i klasyfikatory


Lewa i prawa połówka odpowiednio zawierają instancje, które w rzeczywistości mają i nie mają warunku. Owal zawiera instancje, które są sklasyfikowane (przewidywane) jako pozytywne (mające warunek). Odpowiednio zielony i czerwony zawierają instancje, które są poprawnie (prawda) i błędnie (fałsz) sklasyfikowane. TP=Prawdziwie dodatni; TN = prawdziwie ujemny; FP=fałszywie dodatni (błąd typu I); FN=fałszywie ujemny (błąd typu II); TPR = współczynnik prawdziwie dodatni; FPR = odsetek wyników fałszywie dodatnich; PPV = dodatnia wartość predykcyjna; NPV = ujemna wartość predykcyjna.

Gdy funkcja klasyfikacji nie jest doskonała, pojawią się fałszywe wyniki. W przykładzie na obrazku po prawej stronie. Po lewej stronie linii znajduje się 20 kropek (strona prawdziwa), podczas gdy tylko 8 z tych 20 było prawdziwych. W podobnej sytuacji dla prawej strony linii (strona fałszywa), gdzie po prawej stronie znajduje się 16 kropek, a 4 z tych 16 kropek zostały błędnie oznaczone jako prawdziwe. Korzystając z lokalizacji kropek, możemy zbudować macierz nieporozumień, aby wyrazić wartości. Możemy użyć 4 różnych wskaźników, aby wyrazić 4 różne możliwe wyniki. Istnieje prawdziwie dodatni (TP), fałszywie dodatni (FP), fałszywie ujemny (FN) i prawdziwie ujemny (TN).

Przykładowa macierz nieporozumień
Przewidywane

Rzeczywisty
PRAWDA FAŁSZ
PRAWDA 8 4
FAŁSZ 12 12

Fałszywe alarmy

Fałszywe alarmy pojawiają się, gdy test fałszywie (nieprawidłowo) zgłasza wynik pozytywny. Na przykład test medyczny na chorobę może dać wynik pozytywny wskazujący, że pacjent ma chorobę, nawet jeśli pacjent nie jest chory. Fałszywie dodatni wynik jest zwykle określany jako jednostka w prawym górnym rogu (Warunek negatywny X wynik testu pozytywny) w macierzy zamieszania .

Fałszywe negatywy

Z drugiej strony fałszywe negatywy pojawiają się, gdy test fałszywie lub niepoprawnie zgłasza wynik negatywny. Na przykład test medyczny na chorobę może zwrócić wynik negatywny wskazujący, że pacjent nie ma choroby, mimo że pacjent faktycznie na nią choruje. Fałszywie ujemny jest zwykle określany jako dolna lewa jednostka (warunek pozytywny X wynik testu negatywny) w matrycy zamieszania .

Prawdziwe pozytywy

Prawdziwie pozytywne wyniki pojawiają się, gdy test prawidłowo zgłasza wynik pozytywny. Na przykład test medyczny na chorobę może dać pozytywny wynik wskazujący, że pacjent ma chorobę. Jest to pokazane, gdy test pacjenta potwierdza istnienie choroby. Prawdziwie pozytywny jest zwykle oznaczany jako jednostka w lewym górnym rogu (Warunek pozytywny X wynik testu pozytywny) w macierzy zamieszania .

Prawdziwe negatywy

Prawdziwie negatywny wynik, gdy test prawidłowo podaje wynik ujemny. Na przykład test medyczny na chorobę może dać pozytywny wynik wskazujący, że pacjent nie jest chory. Wykazano, że jest to prawdą, gdy test pacjenta również zgłasza brak choroby. Prawdziwie ujemne jest zwykle określane jako jednostka w prawym dolnym rogu (warunek negatywny X wynik testu ujemny) w macierzy zamieszania .

Zastosowanie z twierdzeniem Bayesa

Możemy również obliczyć wyniki prawdziwie pozytywne, fałszywie pozytywne, prawdziwie negatywne i fałszywie negatywne, korzystając z twierdzenia Bayesa . Użycie twierdzenia Bayesa pomoże opisać prawdopodobieństwo zdarzenia (teoria prawdopodobieństwa) w oparciu o wcześniejszą wiedzę o warunkach, które mogą być związane ze zdarzeniem. Wyrażono cztery klasyfikacje na podstawie poniższego przykładu.

  • Jeśli badany pacjent nie jest chory, test daje wynik pozytywny w 5% przypadków, czyli z prawdopodobieństwem 0,05.
  • Załóżmy, że tylko 0,1% populacji ma tę chorobę, więc losowo wybrany pacjent ma wcześniejsze prawdopodobieństwo zachorowania na tę chorobę wynoszące 0,001.
  • Niech A reprezentuje stan, w którym pacjent ma chorobę
  • Niech \neg A reprezentuje stan, w którym pacjent nie jest chory
  • Niech B oznacza dowód pozytywnego wyniku testu.
  • Niech \neg B reprezentuje dowód negatywnego wyniku testu.

Pod względem prawdziwie dodatnich, fałszywie dodatnich, fałszywie ujemnych i prawdziwie ujemnych:

  • Fałszywie pozytywne to prawdopodobieństwo P, że \neg A (pacjent nie jest chory), a następnie B (pacjent ma pozytywny wynik testu na chorobę) również wyrażone jako P(\neg A|B)
  • Fałszywie negatywny to prawdopodobieństwo P, że A (pacjent ma chorobę), a następnie \neg B (pacjent ma negatywny wynik testu na chorobę) również wyrażone jako P( A|\neg B)
  • Prawdziwie pozytywne to prawdopodobieństwo P, że A (pacjent ma chorobę), a następnie B (pacjent ma pozytywny wynik testu na obecność choroby), również wyrażone jako P(A|B)
  • Prawdziwie ujemne jest prawdopodobieństwo P, że \neg A (pacjent nie jest chory), a następnie \neg B (test pacjenta na obecność choroby jest ujemny) również wyrażone jako P(\neg A|\neg B)

Fałszywe alarmy

Możemy użyć twierdzenia Bayesa, aby określić prawdopodobieństwo, że pozytywny wynik jest w rzeczywistości fałszywie dodatni. Stwierdzamy, że jeśli choroba jest rzadka, większość pozytywnych wyników może być fałszywie dodatnia, nawet jeśli test jest stosunkowo dokładny.

Naiwnie można by sądzić, że tylko 5% pozytywnych wyników testów jest fałszywych, ale jest to błędne przekonanie, jak zobaczymy.

Załóżmy, że tylko 0,1% populacji ma tę chorobę, więc losowo wybrany pacjent ma wcześniejsze prawdopodobieństwo zachorowania na tę chorobę wynoszące 0,001.

Możemy użyć twierdzenia Bayesa do obliczenia prawdopodobieństwa, że ​​pozytywny wynik testu jest fałszywie dodatni.

stąd prawdopodobieństwo, że wynik dodatni jest fałszywie dodatni, wynosi około 1 - 0,019 = 0,98, czyli 98%.

Pomimo pozornej wysokiej dokładności testu, częstość występowania choroby jest tak niska, że ​​zdecydowana większość pacjentów, u których wynik testu jest pozytywny, nie ma tej choroby. Niemniej jednak odsetek pacjentów z pozytywnym wynikiem testu, którzy mają tę chorobę (0,019), jest 19 razy większy niż odsetek osób, które jeszcze nie wykonały testu, które mają tę chorobę (0,001). Zatem test nie jest bezużyteczny, a ponowne przetestowanie może poprawić wiarygodność wyniku.

Aby zmniejszyć problem fałszywych wyników dodatnich, test powinien być bardzo dokładny w zgłaszaniu wyniku ujemnego , gdy pacjent nie jest chory. Jeśli test wykazał wynik ujemny u pacjentów bez choroby z prawdopodobieństwem 0,999, to

więc 1 - 0,5 = 0,5 jest teraz prawdopodobieństwem fałszywego alarmu.

Fałszywe negatywy

Możemy użyć twierdzenia Bayesa , aby określić prawdopodobieństwo, że wynik ujemny jest w rzeczywistości wynikiem fałszywie ujemnym, korzystając z powyższego przykładu:

Prawdopodobieństwo, że wynik ujemny jest fałszywie ujemny, wynosi około 0,0000105 lub 0,00105%. Gdy choroba jest rzadka, wyniki fałszywie ujemne nie będą stanowić większego problemu z testem.

Ale gdyby 60% populacji miało tę chorobę, prawdopodobieństwo fałszywego wyniku negatywnego byłoby większe. W przypadku powyższego testu prawdopodobieństwo fałszywego wyniku ujemnego wynosiłoby

Prawdopodobieństwo, że wynik ujemny jest fałszywie ujemny, wzrasta do 0,0155 lub 1,55%.

Prawdziwe pozytywy

Możemy użyć twierdzenia Bayesa, aby określić prawdopodobieństwo, że pozytywny wynik jest w rzeczywistości prawdziwym dodatnim, korzystając z powyższego przykładu:

  • Jeśli badany pacjent ma tę chorobę, test zwraca wynik pozytywny w 99% przypadków, czyli z prawdopodobieństwem 0,99.
  • Jeśli badany pacjent nie jest chory, test daje wynik pozytywny w 5% przypadków, czyli z prawdopodobieństwem 0,05.
  • Załóżmy, że tylko 0,1% populacji ma tę chorobę, więc losowo wybrany pacjent ma wcześniejsze prawdopodobieństwo zachorowania na tę chorobę wynoszące 0,001.

Niech A reprezentuje stan, w którym pacjent ma chorobę, a B oznacza dowód pozytywnego wyniku testu. Wtedy prawdopodobieństwo, że pacjent rzeczywiście ma tę chorobę przy pozytywnym wyniku testu, wynosi:

Prawdopodobieństwo, że pozytywny wynik jest prawdziwie pozytywny, wynosi około 0,019%

Prawdziwe negatywy

Możemy również użyć twierdzenia Bayesa do obliczenia prawdopodobieństwa wystąpienia prawdziwej wartości ujemnej. Korzystając z powyższych przykładów:

  • Jeśli badany pacjent ma tę chorobę, test zwraca wynik pozytywny w 99% przypadków, czyli z prawdopodobieństwem 0,99.

Prawdopodobieństwo, że wynik ujemny jest prawdziwie ujemny, wynosi 0,9999494 lub 99,99%. Ponieważ choroba jest rzadka, a odsetek dodatnich do dodatnich jest wysoki, a odsetek ujemnych do ujemnych jest również wysoki, spowoduje to duży odsetek prawdziwie ujemnych.

Pomiar klasyfikatora z czułością i specyficznością

Podczas szkolenia klasyfikatora można chcieć mierzyć jego wydajność za pomocą dobrze przyjętych wskaźników czułości i specyficzności. Pouczające może być porównanie klasyfikatora z losowym klasyfikatorem, który rzuca monetą na podstawie częstości występowania choroby. , że prawdopodobieństwo, że dana osoba jest chora, wynosi prawdopodobieństwo, że nie . Załóżmy więc, że mamy losowy klasyfikator, który zgaduje, że pacjent ma chorobę, i z takim samym prawdopodobieństwem zgaduje, .

Prawdopodobieństwo prawdziwie pozytywnego wyniku to prawdopodobieństwo, że pacjent ma chorobę, pomnożone przez prawdopodobieństwo, że losowy klasyfikator odgadnie to poprawnie, lub . Przy podobnym rozumowaniu prawdopodobieństwo fałszywego wyniku ujemnego wynosi . Z powyższych definicji wynika, że ​​czułość tego klasyfikatora wynosi . Korzystając z podobnego rozumowania, możemy obliczyć specyficzność jako .

Tak więc, chociaż sama miara jest niezależna od rozpowszechnienia choroby, wydajność tego losowego klasyfikatora zależy od rozpowszechnienia choroby. Klasyfikator może mieć wydajność podobną do tego losowego klasyfikatora, ale z lepszą wagą monety (wyższa czułość i specyficzność). Tak więc na te środki może mieć wpływ rozpowszechnienie choroby. Alternatywną miarą wydajności jest współczynnik korelacji Matthewsa , dla którego każdy losowy klasyfikator uzyska średni wynik równy 0.

Rozszerzenie tej koncepcji na klasyfikacje niebinarne daje macierz zamieszania .

Zobacz też

Notatki