Paradoks dokładności
Paradoks dokładności to paradoksalne stwierdzenie , że dokładność nie jest dobrą metryką dla modeli predykcyjnych podczas klasyfikowania w analityce predykcyjnej . Dzieje się tak, ponieważ prosty model może mieć wysoki poziom dokładności, ale może być zbyt prymitywny, aby był użyteczny. Na przykład, jeśli częstość występowania kategorii A jest dominująca i występuje w 99% przypadków, to przewidywanie, że każdy przypadek należy do kategorii A, będzie miało dokładność 99%. Precyzja i pamięć są lepszymi środkami w takich przypadkach. Podstawowym problemem jest to, że istnieje nierównowaga klasowa między klasą pozytywną a klasą negatywną. W analizie błędów należy uwzględnić wcześniejsze prawdopodobieństwa dla tych klas. Precyzja i przypominanie pomagają, ale precyzja również może być obciążona przez bardzo niezrównoważone priorytety klas w zestawach testowych.
Przykład
Na przykład milionowe miasto ma dziesięciu terrorystów. System profilowania skutkuje następującą macierzą nieporozumień :
Przewidywana klasa Rzeczywista klasa
|
Ponieść porażkę | Przechodzić | Suma |
---|---|---|---|
Ponieść porażkę | 10 | 0 | 10 |
Przechodzić | 990 | 999000 | 999990 |
Suma | 1000 | 999000 | 1000000 |
Chociaż dokładność wynosi 10 + 999000 / 1000000 ≈ 99,9%, 990 z 1000 pozytywnych prognoz jest błędnych. Precyzja 10 / 10 + 990 = 1% zdradza jego słabą wydajność. Ponieważ klasy są tak niezrównoważone, lepszą metryką jest wynik F1 = 2 × 0,01 × 1 / 0,01 + 1 ≈ 2% (przypomnienie to 10 + 0 / 10 = 1).