Paradoks dokładności

Paradoks dokładności to paradoksalne stwierdzenie , że dokładność nie jest dobrą metryką dla modeli predykcyjnych podczas klasyfikowania w analityce predykcyjnej . Dzieje się tak, ponieważ prosty model może mieć wysoki poziom dokładności, ale może być zbyt prymitywny, aby był użyteczny. Na przykład, jeśli częstość występowania kategorii A jest dominująca i występuje w 99% przypadków, to przewidywanie, że każdy przypadek należy do kategorii A, będzie miało dokładność 99%. Precyzja i pamięć są lepszymi środkami w takich przypadkach. Podstawowym problemem jest to, że istnieje nierównowaga klasowa między klasą pozytywną a klasą negatywną. W analizie błędów należy uwzględnić wcześniejsze prawdopodobieństwa dla tych klas. Precyzja i przypominanie pomagają, ale precyzja również może być obciążona przez bardzo niezrównoważone priorytety klas w zestawach testowych.

Przykład

Na przykład milionowe miasto ma dziesięciu terrorystów. System profilowania skutkuje następującą macierzą nieporozumień :

Przewidywana klasa Rzeczywista klasa	Ponieść porażkę	Przechodzić	Suma
Ponieść porażkę	10	0	10
Przechodzić	990	999000	999990
Suma	1000	999000	1000000

Chociaż dokładność wynosi 10 + 999000 / 1000000 ≈ 99,9%, 990 z 1000 pozytywnych prognoz jest błędnych. Precyzja 10 / 10 + 990 = 1% zdradza jego słabą wydajność. Ponieważ klasy są tak niezrównoważone, lepszą metryką jest wynik F1 = 2 × 0,01 × 1 / 0,01 + 1 ≈ 2% (przypomnienie to 10 + 0 / 10 = 1).