Współczynnik niepewności

W statystyce współczynnik niepewności , zwany także biegłością , współczynnikiem entropii lub U Theila , jest miarą związku nominalnego . Została ona po raz pierwszy wprowadzona przez Henri Theila [ potrzebne źródło ] i opiera się na koncepcji entropii informacyjnej .

Definicja

Załóżmy, że mamy próbki dwóch dyskretnych zmiennych losowych, X i Y . Konstruując wspólny rozkład P X,Y ( x , y ) , z którego możemy obliczyć rozkłady warunkowe , P X | Y ( x | y ) = P X, Y ( x , y )/ P Y ( y ) i P Y | X ( y | x ) = P X,Y ( x , y )/ P X ( x ) i obliczając różne entropie, możemy określić stopień powiązania między dwiema zmiennymi.

Entropia pojedynczego rozkładu jest dana jako:

podczas gdy warunkowa entropia jest podana jako:

Współczynnik niepewności lub biegłość definiuje się jako:

i mówi nam: mając Y , jaki ułamek bitów X możemy przewidzieć? W tym przypadku możemy myśleć, że X zawiera całość informacji, a Y pozwala przewidzieć część takich informacji.

Z powyższego wyrażenia jasno wynika, że ​​współczynnik niepewności jest znormalizowaną informacją wzajemną I(X;Y) . W szczególności, zakresy współczynników niepewności w [0, 1] jako I(X;Y) < H(X) i zarówno I(X,Y), jak i H(X) są dodatnie lub zerowe.

Zauważ, że wartość U (ale nie H !) jest niezależna od podstawy logarytmu, ponieważ wszystkie logarytmy są proporcjonalne.

Współczynnik niepewności jest użyteczny do pomiaru ważności algorytmu klasyfikacji statystycznej i ma przewagę nad prostszymi miarami dokładności, takimi jak precyzja i przypominanie , ponieważ nie ma na niego wpływu względne ułamki różnych klas, tj. P ( x ). Ma również tę wyjątkową właściwość, że nie będzie karać algorytmu za przewidywanie niewłaściwych klas, o ile robi to konsekwentnie (tj. po prostu przestawia klasy). Jest to przydatne przy ocenie algorytmów grupowania, ponieważ etykiety klastrów zwykle nie mają określonej kolejności.

Wariacje

Współczynnik niepewności nie jest symetryczny względem ról X i Y . Role można odwrócić, a miarę symetryczną zdefiniować w ten sposób jako średnią ważoną między nimi:

Chociaż zwykle stosuje się go do zmiennych dyskretnych, współczynnik niepewności można rozszerzyć na zmienne ciągłe za pomocą estymacji gęstości . [ potrzebne źródło ]

Zobacz też

  1. ; ^ abc Claude E. Shannon Warrena Tkacza (1963). Matematyczna teoria komunikacji . Wydawnictwo Uniwersytetu Illinois.
  2. ^ a b William H. Press; Briana P. Flannery'ego; Saul A. Teukolsky; Williama T. Vetterlinga (1992). „14.7.4”. Przepisy numeryczne: sztuka obliczeń naukowych (wyd. 3). Wydawnictwo Uniwersytetu Cambridge. P. 761.
  3. ^ ab Biały , Jim; Steingold, Sam; Fournelle, Connie. „Metryki wydajności dla algorytmów wykrywania grup” (PDF) . Interfejs 2004. {{ cite journal }} : Cite journal wymaga |journal= ( pomoc )
  4. ^   Peter, Mills (2011). „Wydajna klasyfikacja statystyczna pomiarów satelitarnych” (PDF) . Międzynarodowy Dziennik Teledetekcji . 32 (21): 6109–6132. ar Xiv : 1202.2194 . Bibcode : 2011IJRS...32.6109M . doi : 10.1080/01431161.2010.507795 . S2CID 88518570 . Zarchiwizowane od oryginału (PDF) w dniu 2012-04-26.

Linki zewnętrzne

  • libagf Zawiera oprogramowanie do obliczania współczynników niepewności.