Ocena klasyfikatorów binarnych


Terminologia i wyprowadzenia z macierzy nieporozumień



warunek dodatni (P)
liczba rzeczywistych przypadków dodatnich w danych
warunek ujemny (N)
liczba rzeczywistych przypadków ujemnych w danych
prawdziwie dodatni (TP)
Wynik testu, który prawidłowo wskazuje na obecność warunku lub cechy
prawdziwie ujemny (TN )
Wynik testu, który poprawnie wskazuje na brak warunku lub cechy
fałszywie dodatni (FP)
Wynik testu, który błędnie wskazuje, że występuje określony warunek lub cecha,
fałszywie ujemny (FN)
Wynik testu, który błędnie wskazuje, że określony warunek lub cecha jest nieobecny
czułość , przypomnienie , współczynnik trafień lub współczynnik prawdziwie dodatnich (TPR)
swoistość , selektywność lub współczynnik prawdziwie ujemny (TNR)
predykcyjna ( PPV )
ujemna wartość predykcyjna (NPV)
odsetek chybień lub odsetek wyników fałszywie ujemnych (FNR)
wypadnięcie lub odsetek wyników fałszywie dodatnich (FPR)
współczynnik fałszywego wykrywania (FDR)
wskaźnik fałszywego pominięcia (DLA)
+ )
LR- )
próg rozpowszechnienia (PT)
krytyczna indeks sukcesu (CSI)
Rozpowszechnienie
( ACC)
zrównoważona dokładność (BA)
Wynik F1
to harmoniczna średnia precyzji i czułości : T
współczynnik phi (φ lub r φ ) lub współczynnik korelacji Matthewsa (MCC)
Indeks Fowlkesa-Mallowsa (FM)
poinformowany lub poinformowany bukmacher (BM)
zaznaczenie (MK) lub delta P (Δp)
szanse diagnostyczne stosunek (DOR)

Źródła: Fawcett (2006), Piryonesi i El-Diraby (2020), Powers (2011), Ting (2011), CAWCR, D. Chicco & G. Jurman (2020, 2021, 2023) , Tharwat (2018). Balayla (2020)

Z macierzy zamieszania można wyprowadzić cztery podstawowe miary

Ocena klasyfikatorów binarnych porównuje dwie metody przypisywania atrybutu binarnego, z których jedna jest zwykle metodą standardową, a druga jest badana. Istnieje wiele metryk, których można użyć do pomiaru wydajności klasyfikatora lub predyktora; różne pola mają różne preferencje dla określonych metryk ze względu na różne cele. Na przykład w medycynie czułość i specyficzność , podczas gdy w informatyce preferuje się precyzję i pamięć . Istotne jest rozróżnienie między metrykami, które są niezależne od rozpowszechnienia (jak często dana kategoria występuje w populacji), a metrykami, które zależą od rozpowszechnienia – oba typy są przydatne, ale mają bardzo różne właściwości.

Tabela kontyngencji

Biorąc pod uwagę zbiór danych, klasyfikacja (wynik klasyfikatora na tym zbiorze) daje dwie liczby: liczbę pozytywów i liczbę negatywów, które składają się na całkowity rozmiar zbioru. Aby ocenić klasyfikator, porównuje się jego dane wyjściowe z inną klasyfikacją referencyjną - idealnie idealną klasyfikacją, ale w praktyce z wynikiem innego złotego standardu - i zestawia dane w tabeli kontyngencji 2 × 2 , porównując dwie klasyfikacje. Następnie ocenia się klasyfikator w stosunku do standardu złota, obliczając sumaryczne statystyki tych 4 liczb. Ogólnie statystyki te będą niezmienne w skali (skalowanie wszystkich liczb tym samym współczynnikiem nie zmienia wyniku), aby uniezależnić je od wielkości populacji, co osiąga się za pomocą stosunków funkcji jednorodnych, najprościej jednorodnych funkcji liniowych lub jednorodnych funkcji kwadratowych.

Powiedzmy, że testujemy niektórych ludzi na obecność choroby. Niektóre z tych osób są chore, a nasz test prawidłowo wskazuje, że są one pozytywne. Nazywa się je prawdziwymi pozytywami (TP). Niektórzy mają tę chorobę, ale test błędnie twierdzi, że nie. Nazywa się je fałszywie ujemnymi (FN). Niektórzy nie mają choroby, a test mówi, że nie – prawdziwie negatywne (TN). Wreszcie mogą istnieć osoby zdrowe, które mają pozytywny wynik testu – fałszywie dodatnie (FP). Można je ułożyć w tabelę kontyngencji 2 × 2 ( macierz zamieszania ), konwencjonalnie z wynikiem testu na osi pionowej i rzeczywistym stanem na osi poziomej.

Liczby te można następnie zsumować, uzyskując zarówno sumę całkowitą , jak i sumę krańcową . Podsumowując całą tabelę, liczba wyników prawdziwie dodatnich, fałszywie ujemnych, prawdziwie ujemnych i fałszywie dodatnich sumuje się do 100% zestawu. Sumowanie kolumn (dodawanie w pionie) liczby wyników prawdziwie dodatnich i fałszywie dodatnich sumuje się do 100% wyników pozytywnych testu, podobnie jak w przypadku wyników negatywnych. Sumując wiersze (dodając poziomo), liczba wyników prawdziwie dodatnich i fałszywie ujemnych sumuje się do 100% pozytywnych warunków warunku (odwrotnie w przypadku negatywów). Podstawowe statystyki współczynnika krańcowego uzyskuje się, dzieląc wartości 2 × 2 = 4 w tabeli przez sumy krańcowe (w wierszach lub kolumnach), uzyskując 2 pomocnicze tabele 2 × 2, w sumie 8 wskaźników. Te stosunki występują w 4 uzupełniających się parach, z których każda sumuje się do 1, więc każdą z tych wyprowadzonych tabel 2 × 2 można podsumować jako parę 2 liczb wraz z ich uzupełnieniami. Dalsze statystyki można uzyskać, biorąc stosunki tych stosunków, stosunki stosunków lub bardziej skomplikowane funkcje.

Tabela kontyngencji i najczęstsze wyprowadzone wskaźniki są podsumowane poniżej; zobacz sequel po szczegóły.

Przewidywany stan Źródła:

Całkowita populacja = P + N
Pozytywny (PP) Negatywny (PN)
Poinformowanie , poinformowanie bukmachera (BM) = TPR + TNR − 1

Próg rozpowszechnienia (PT) =
Rzeczywisty stan
Pozytywny (P)
Prawdziwie pozytywny (TP), trafiony

Fałszywie negatywny (FN),
błąd II rodzaju , chybienie, niedoszacowanie

Prawdziwie pozytywny współczynnik (TPR), przywołanie , czułość (SEN), prawdopodobieństwo wykrycia, współczynnik trafień, moc = TP / P = 1 − FNR


Wskaźnik fałszywie ujemny (FNR), współczynnik chybień = FN / P = 1 - TPR
Ujemny (N)
Fałszywie dodatni (FP),
błąd I rodzaju , fałszywy alarm, przeszacowanie

Prawdziwie negatywne (TN), poprawne odrzucenie


Odsetek wyników fałszywie dodatnich (FPR), prawdopodobieństwo fałszywego alarmu, wypadnięcie = FP / N = 1 − TNR


Współczynnik prawdziwie ujemny (TNR), specyficzność (SPC), selektywność = TN / N = 1 − FPR

Rozpowszechnienie = P / P + N

Pozytywna wartość predykcyjna (PPV), precyzja = TP / PP = 1 − FDR

Wskaźnik fałszywych pominięć (FOR) = FN / PN = 1 − NPV

Pozytywny współczynnik wiarygodności (LR+) = TPR / FPR

Współczynnik wiarygodności ujemnej (LR−) = FNR / TNR
Dokładność (ACC) = TP + TN / P + N
Współczynnik fałszywych odkryć (FDR) = FP / PP = 1 − PPV
Ujemna wartość predykcyjna (NPV) = TN / PN = 1 − FOR
Zaznaczenie (MK), deltaP (Δp) = PPV + NPV − 1
Diagnostyczny iloraz szans (DOR) = LR+ / LR−
Zrównoważona dokładność (BA) = TPR + TNR / 2
F 1 wynik = 2 PPV × TPR / PPV + TPR = 2 TP / 2 TP + FP + FN
Indeks Fowlkesa-Mallowsa (FM) =
Współczynnik korelacji Matthewsa (MCC) =
Ocena zagrożenia (TS), wskaźnik sukcesu krytycznego (CSI), wskaźnik Jaccarda = TP / TP + FN + FP

Należy zauważyć, że wiersze odpowiadają chorobie, która jest faktycznie dodatnia lub ujemna (lub sklasyfikowana jako taka według złotego standardu), na co wskazuje kodowanie kolorami, a powiązane statystyki są niezależne od rozpowszechnienia, podczas gdy kolumny odpowiadają pozytywnemu wynikowi testu lub ujemne, a powiązane statystyki są zależne od rozpowszechnienia. Istnieją analogiczne współczynniki wiarygodności dla wartości predykcji, ale są one rzadziej używane i nie zostały przedstawione powyżej.

Czułość i specyficzność

Podstawowe statystyki niezależne od rozpowszechnienia to czułość i swoistość .

Czułość lub wskaźnik prawdziwie dodatnich wyników (TPR), znany również jako wycofanie , to odsetek osób, które uzyskały pozytywny wynik testu i są pozytywne (prawdziwie pozytywne, TP) spośród wszystkich osób, które faktycznie są pozytywne (warunek pozytywny, CP = TP + FN). Można to postrzegać jako prawdopodobieństwo, że wynik testu jest pozytywny, biorąc pod uwagę, że pacjent jest chory . Przy wyższej czułości mniej rzeczywistych przypadków choroby pozostaje niewykrytych (lub, w przypadku fabrycznej kontroli jakości, mniej wadliwych produktów trafia na rynek).

Specyficzność (SPC) lub wskaźnik prawdziwie ujemnych wyników (TNR) to odsetek osób, które uzyskały wynik negatywny i są negatywne (prawdziwie negatywne, TN) wśród wszystkich osób, które faktycznie są negatywne (warunek negatywny, CN = TN + FP). Podobnie jak w przypadku czułości, można ją postrzegać jako prawdopodobieństwo, że wynik testu będzie ujemny, biorąc pod uwagę, że pacjent nie jest chory . Przy większej specyficzności mniej zdrowych ludzi jest oznaczanych jako chorych (lub, w przypadku fabryki, mniej dobrych produktów jest odrzucanych).

Zależność między czułością a specyficznością, a także wydajność klasyfikatora, można wizualizować i badać za pomocą krzywej ROC ( Receiver Operating Characteristic ).

Teoretycznie czułość i specyficzność są niezależne w tym sensie, że możliwe jest osiągnięcie 100% w obu przypadkach (tak jak w powyższym przykładzie z czerwoną/niebieską kulą). Jednak w bardziej praktycznych, mniej wymyślnych przypadkach zwykle występuje kompromis, tak że są one do pewnego stopnia odwrotnie proporcjonalne do siebie. Dzieje się tak, ponieważ rzadko mierzymy rzeczywistą rzecz, którą chcielibyśmy sklasyfikować; raczej generalnie mierzymy wskaźnik rzeczy, którą chcielibyśmy sklasyfikować, określany jako znacznik zastępczy . Powodem, dla którego 100% jest osiągalne w przykładzie z piłką, jest to, że czerwienie i błękity są określane przez bezpośrednie wykrywanie czerwieni i błękitu. Jednak wskaźniki są czasami zagrożone, na przykład gdy wskaźniki niebędące wskaźnikami naśladują wskaźniki lub gdy wskaźniki są zależne od czasu i stają się widoczne dopiero po pewnym czasie opóźnienia. Poniższy przykład testu ciążowego wykorzysta taki wskaźnik.

Nowoczesne testy ciążowe nie wykorzystują samej ciąży do określenia stanu ciąży; zamiast tego ludzką gonadotropinę kosmówkową lub hCG, obecną w moczu ciężarnych samic, jako zastępczy marker wskazujący, że kobieta jest w ciąży. Ponieważ hCG może być również wytwarzane przez guz , specyficzność nowoczesnych testów ciążowych nie może wynosić 100% (ponieważ możliwe są fałszywe alarmy). Ponadto, ponieważ hCG jest obecne w moczu w tak małych stężeniach po zapłodnieniu i wczesnej embriogenezie , czułość nowoczesnych testów ciążowych nie może wynosić 100% (ponieważ możliwe są wyniki fałszywie ujemne).

Współczynniki prawdopodobieństwa

Pozytywne i negatywne wartości predykcyjne

Oprócz czułości i swoistości wydajność testu klasyfikacji binarnej można mierzyć za pomocą dodatniej wartości predykcyjnej (PPV), znanej również jako precyzja , oraz ujemnej wartości predykcyjnej (NPV). Dodatnia wartość przewidywania odpowiada na pytanie „Jeśli wynik testu jest pozytywny , jak dobrze przewiduje on rzeczywistą obecność choroby?”. Jest obliczany jako TP/(TP + FP); to znaczy jest to odsetek wyników prawdziwie dodatnich spośród wszystkich wyników pozytywnych. Wartość prognozy ujemnej jest taka sama, ale oczywiście dla wartości ujemnych.

Wpływ rozpowszechnienia na wartości predykcyjne

Częstość występowania ma znaczący wpływ na wartości przewidywań. Jako przykład załóżmy, że istnieje test na chorobę o 99% czułości i 99% swoistości. Jeśli przebadanych zostanie 2000 osób, a chorobowość (w próbie) wynosi 50%, to 1000 z nich jest chorych, a 1000 zdrowych. Tak więc prawdopodobnych jest około 990 prawdziwych pozytywów i 990 prawdziwych negatywów, z 10 fałszywie dodatnimi i 10 fałszywie ujemnymi. Dodatnie i ujemne wartości predykcji wyniosłyby 99%, więc wynik może być bardzo pewny.

Jeśli jednak rozpowszechnienie wynosi tylko 5%, a więc z 2000 osób tylko 100 jest naprawdę chorych, wówczas wartości predykcji znacznie się zmieniają. Prawdopodobny wynik to 99 wyników prawdziwie dodatnich, 1 wynik fałszywie ujemny, 1881 wyników prawdziwie negatywnych i 19 wyników fałszywie dodatnich. Spośród 19 + 99 osób z pozytywnym wynikiem testu tylko 99 naprawdę ma tę chorobę – intuicyjnie oznacza to, że biorąc pod uwagę pozytywny wynik testu pacjenta, istnieje tylko 84% szans, że naprawdę mają tę chorobę. Z drugiej strony, biorąc pod uwagę, że wynik testu pacjenta jest negatywny, istnieje tylko 1 szansa w 1882 roku, czyli prawdopodobieństwo 0,05%, że pacjent jest chory pomimo wyniku testu.

Współczynniki prawdopodobieństwa

Precyzja i pamięć

Precyzję i przywołanie można interpretować jako (szacowane) prawdopodobieństwa warunkowe: Precyzja jest dana przez C jest podane przez , gdzie jest przewidywana klasa i klasą. Obie wielkości są zatem połączone twierdzeniem Bayesa .

Relacje

Pomiędzy tymi wskaźnikami występują różne zależności.

Jeśli znana jest częstość występowania, czułość i swoistość, dodatnią wartość predykcyjną można uzyskać z następującej tożsamości:

Jeśli znana jest częstość występowania, czułość i swoistość, ujemną wartość predykcyjną można uzyskać z następującej tożsamości:

Pojedyncze wskaźniki

Oprócz sparowanych metryk istnieją również pojedyncze metryki, które dają pojedynczą liczbę do oceny testu.

Być może najprostszą statystyką jest dokładność lub ułamek poprawny (FC), która mierzy ułamek wszystkich przypadków, które są poprawnie skategoryzowane; jest to stosunek liczby poprawnych klasyfikacji do ogólnej liczby poprawnych lub błędnych klasyfikacji: (TP + TN)/całkowita populacja = (TP + TN)/(TP + TN + FP + FN). W związku z tym porównuje oszacowania prawdopodobieństwa przed i po teście . Ta miara jest rozpowszechnienia . Jeśli 90% osób z objawami COVID nie ma COVID, prawdopodobieństwo a priori P(-) wynosi 0,9, a prosta zasada „Klasyfikuj wszystkich takich pacjentów jako wolnych od COVID”. byłby w 90% dokładny. Diagnoza powinna być lepsza. Można skonstruować „jednoproporcjonalny test z” z p0 jako max(priors) = max(P(-),P(+)) dla metody diagnostycznej, mając nadzieję na pokonanie prostej reguły przy użyciu najbardziej prawdopodobnego wyniku. Tutaj hipotezy to „Ho: p ≤ 0,9 vs. Ha: p > 0,9”, odrzucając Ho dla dużych wartości z . Jedną regułę diagnostyczną można porównać z inną, jeśli dokładność drugiej jest znana i zastąpiona p0 w obliczaniu statystyki z. Jeśli nie jest to znane i obliczone na podstawie danych, można przeprowadzić test porównawczy dokładności przy użyciu „Testu z dla dwóch proporcji, połączonego dla Ho: p1 = p2” . Mało używana jest statystyka uzupełniająca, ułamek błędny (FiC): FC + FiC = 1, czyli (FP + FN)/(TP + TN + FP + FN) – jest to suma antydiagonalnej , podzielona przez ogólna populacja. Niepoprawne ułamki ważone kosztami mogą porównywać oczekiwane koszty błędnej klasyfikacji dla różnych metod.

Diagnostyczny iloraz szans (DOR) może być bardziej użyteczną ogólną metryką, którą można zdefiniować bezpośrednio jako (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) lub pośrednio jako stosunek stosunku współczynników (stosunek współczynników wiarygodności, które same są stosunkami współczynników rzeczywistych lub wartości przewidywanych). Ma to użyteczną interpretację – jako iloraz szans – i jest niezależne od rozpowszechnienia. Powszechnie uważa się, że iloraz wiarygodności jest niezależny od rozpowszechnienia i można go łatwo interpretować jako mnożnik, który zamienia wcześniejsze prawdopodobieństwa na późniejsze . Inną użyteczną pojedynczą miarą jest „pole pod krzywą ROC”, AUC .

Alternatywne wskaźniki

Wynik F to połączenie precyzji i przypomnienia , dające pojedynczy wynik. Istnieje jednoparametrowa rodzina statystyk, z parametrem β, który określa względne wagi precyzji i przypomnienia. Tradycyjny lub zrównoważony wynik F ( wynik F1 ) to harmoniczna średnia precyzji i pamięci:

.

Wyniki F nie uwzględniają rzeczywistego współczynnika ujemnego i dlatego są bardziej odpowiednie do wyszukiwania informacji i oceny ekstrakcji informacji , gdzie prawdziwych negatywów jest niezliczona ilość. Zamiast tego, miary takie jak współczynnik phi , współczynnik korelacji Matthewsa , informacyjność lub kappa Cohena mogą być preferowane do oceny działania klasyfikatora binarnego. Jako współczynnik korelacji , współczynnik korelacji Matthewsa jest średnią geometryczną współczynników regresji problemu i jego dualności . Składowe współczynniki regresji współczynnika korelacji Matthewsa to zaznaczenie (deltap) i poinformowanie ( statystyka J Youdena lub deltap').

Zobacz też