P4-metryczny
Metryka P4 umożliwia ocenę wydajności klasyfikatora binarnego . Oblicza się go na podstawie precyzji , przypomnienia , specyficzności i NPV (ujemna wartość predykcyjna). P 4 jest zaprojektowany w podobny sposób jak metryka F 1 , jednak odnosi się do krytyki skierowanej przeciwko F 1 . Można ją postrzegać jako jej przedłużenie.
Podobnie jak inne znane miary, P4 jest funkcją: TP (prawdziwie pozytywne), TN (prawdziwie negatywne), FP ( fałszywie pozytywne ), FN ( fałszywie negatywne ).
Uzasadnienie
Kluczową koncepcją P 4 jest wykorzystanie czterech kluczowych prawdopodobieństw warunkowych:
- - prawdopodobieństwo, że próbka jest pozytywna, pod warunkiem, że wynik klasyfikatora był pozytywny.
- - prawdopodobieństwo, że wynik klasyfikatora będzie pozytywny, pod warunkiem, że próbka jest pozytywna.
- - prawdopodobieństwo, że wynik klasyfikatora będzie ujemny, o ile próba będzie ujemna.
- - prawdopodobieństwo, że próbka jest ujemna, pod warunkiem, że wynik klasyfikatora był ujemny.
Głównym założeniem tej metryki jest to, że prawidłowo zaprojektowany klasyfikator binarny powinien dawać wyniki, dla których wszystkie wymienione powyżej prawdopodobieństwa są bliskie 1. P 4 jest zaprojektowany w taki sposób, że P 4 = 1 {\ displaystyle \ wymaga, aby wszystkie prawdopodobieństwa były równe 1. Zbliża się również do zera, gdy którekolwiek z tych prawdopodobieństw dąży do zera.
Definicja
P 4 definiuje się jako średnią harmoniczną czterech kluczowych prawdopodobieństw warunkowych:
W odniesieniu do TP,TN,FP,FN można to obliczyć w następujący sposób:
Ocena działania klasyfikatora binarnego
Ocena działania klasyfikatora binarnego jest koncepcją multidyscyplinarną. Obejmuje ocenę testów medycznych, testów psychiatrycznych po uczenia maszynowego z różnych dziedzin. W związku z tym wiele używanych metryk występuje pod kilkoma nazwami. Niektóre z nich są definiowane niezależnie.
Przewidywany stan | Źródła: | ||||
Całkowita populacja = P + N |
Pozytywny (PP) | Negatywny (PN) |
Poinformowanie , poinformowanie bukmachera (BM) = TPR + TNR − 1 |
Próg rozpowszechnienia (PT) = |
|
Pozytywny (P) |
Prawdziwie pozytywny (TP), trafiony |
Fałszywie negatywny (FN), błąd II rodzaju , chybienie, niedoszacowanie |
Prawdziwie pozytywny wskaźnik (TPR), przywołanie , czułość (SEN), prawdopodobieństwo wykrycia, współczynnik trafień, moc = TP / P = 1 − FNR |
Wskaźnik fałszywie ujemny (FNR), współczynnik chybień = FN / P = 1 - TPR |
|
Ujemny (N) |
Fałszywie dodatni (FP), błąd I rodzaju , fałszywy alarm, przeszacowanie |
Prawdziwie ujemne (TN), prawidłowe odrzucenie |
Odsetek wyników fałszywie dodatnich (FPR), prawdopodobieństwo fałszywego alarmu, wypadnięcie = FP / N = 1 − TNR |
Współczynnik prawdziwie ujemny (TNR), specyficzność (SPC), selektywność = TN / N = 1 − FPR |
|
Rozpowszechnienie = P / P + N |
Pozytywna wartość predykcyjna (PPV), precyzja = TP / PP = 1 − FDR |
Wskaźnik fałszywych pominięć (FOR) = FN / PN = 1 − NPV |
Pozytywny współczynnik wiarygodności (LR+) = TPR / FPR |
Współczynnik wiarygodności ujemnej (LR−) = FNR / TNR |
|
Dokładność (ACC) = TP + TN / P + N |
Współczynnik fałszywych odkryć (FDR) = FP / PP = 1 − PPV |
Ujemna wartość predykcyjna (NPV) = TN / PN = 1 − FOR |
Zaznaczenie (MK), deltaP (Δp) = PPV + NPV − 1 |
Diagnostyczny iloraz szans (DOR) = LR+ / LR− | |
Zrównoważona dokładność (BA) = TPR + TNR / 2 |
F 1 wynik = 2 PPV × TPR / PPV + TPR = 2 TP / 2 TP + FP + FN |
Indeks Fowlkesa-Mallowsa (FM) = |
Współczynnik korelacji Matthewsa (MCC) = |
Ocena zagrożenia (TS), wskaźnik sukcesu krytycznego (CSI), wskaźnik Jaccarda = TP / TP + FN + FP |
Właściwości metryki P 4
- Symetria – w przeciwieństwie do metryki F 1 , P 4 jest symetryczna. Oznacza to - nie zmienia swojej wartości, gdy zmienia się etykietowanie zbioru danych - pozytywy nazwane negatywami, a negatywy nazwane pozytywami.
- Zakres:
- Osiągnięcie wymaga kluczowe prawdopodobieństwa warunkowe były
- Dla wystarczy kluczowych prawdopodobieństw warunkowych jest bliskie 0
Przykłady, porównanie z innymi wskaźnikami
Tabela zależności dla wybranych metryk ("true" oznacza, że zależy, "false" - nie zależy):
P 4 | PRAWDA | PRAWDA | PRAWDA | PRAWDA |
F 1 | PRAWDA | PRAWDA | FAŁSZ | FAŁSZ |
Poinformowanie | FAŁSZ | PRAWDA | PRAWDA | FAŁSZ |
Naznaczenie | PRAWDA | FAŁSZ | FAŁSZ | PRAWDA |
Metryki, które nie zależą od danego prawdopodobieństwa, są podatne na błędne przedstawienie, gdy zbliżają się do 0.
Przykład 1: Test wykrywania rzadkich chorób
Rozważmy test medyczny mający na celu wykrycie rodzaju rzadkiej choroby. Wielkość populacji wynosi 100 000, podczas gdy 0,05% populacji jest zakażonych. Wyniki testu: 95% wszystkich osób pozytywnych zostało sklasyfikowanych poprawnie ( TPR =0,95), a 95% wszystkich osób negatywnych zostało sklasyfikowanych poprawnie ( TNR =0,95). W takim przypadku, ze względu na dużą nierównowagę populacyjną, pomimo wysokiej dokładności testu (0,95), prawdopodobieństwo, że osoba, która została sklasyfikowana jako pozytywna, jest w rzeczywistości dodatnia, jest bardzo niskie:
A teraz możemy zaobserwować, jak to niskie prawdopodobieństwo znajduje odzwierciedlenie w niektórych wskaźnikach:
- ( informacja / indeks Youdena )
- ( Zaznaczenie )
Przykład 2: Rozpoznawanie obrazu — koty kontra psy
Szkolimy klasyfikator obrazów oparty na sieciach neuronowych. Rozważamy tylko dwa rodzaje obrazów: przedstawiające psy (oznaczone jako 0) i przedstawiające koty (oznaczone jako 1). Dlatego naszym celem jest odróżnienie kotów od psów. Klasyfikator przecenia na korzyść kotów (próbki „pozytywne”): 99,99% kotów jest klasyfikowanych prawidłowo, a tylko 1% psów jest klasyfikowanych poprawnie. Zestaw danych obrazu składa się z 100 000 obrazów, z których 90% to zdjęcia kotów, a 10% to zdjęcia psów. W takiej sytuacji prawdopodobieństwo, że zdjęcie przedstawiające psa zostanie poprawnie sklasyfikowane jest dość niskie:
Nie wszystkie wskaźniki zauważają to niskie prawdopodobieństwo:
- ( informacja / indeks Youdena )
- ( zaznaczenie )