Punktowe wzajemne informacje

W statystyce , teorii prawdopodobieństwa i teorii informacji , wzajemna informacja punktowa ( PMI ) lub wzajemna informacja punktowa jest miarą asocjacji . Porównuje prawdopodobieństwo wystąpienia dwóch zdarzeń razem z tym, jakie byłoby to prawdopodobieństwo, gdyby zdarzenia były niezależne .

PMI (zwłaszcza w jego pozytywnym, punktowym wariancie wzajemnej informacji ) został opisany jako „jedna z najważniejszych koncepcji w NLP ”, gdzie „opiera się na intuicji, że najlepszym sposobem na zważenie związku między dwoma słowami jest pytanie, o ile więcej te dwa słowa współwystępują w [a] korpusie, niż a priori spodziewalibyśmy się, że pojawią się przypadkowo”.

Pojęcie to zostało wprowadzone w 1961 roku przez Roberta Fano pod nazwą „informacji wzajemnych”, ale obecnie termin ten jest używany w odniesieniu do powiązanej miary zależności między zmiennymi losowymi: Informacja wzajemna (MI) dwóch dyskretnych zmiennych losowych odnosi się do średniej PMI wszystkich możliwych zdarzeń.

Definicja

PMI pary wyników x i y należących do dyskretnych zmiennych losowych X i Y kwantyfikuje rozbieżność między prawdopodobieństwem ich zbieżności, biorąc pod uwagę ich wspólny rozkład , a ich indywidualnymi rozkładami, przy założeniu niezależności . Matematycznie:

(przy czym dwa ostatnie wyrażenia są równe pierwszemu na mocy twierdzenia Bayesa ). Wzajemna informacja (MI) zmiennych losowych X i Y to oczekiwana wartość PMI (po wszystkich możliwych wynikach).

Miara jest symetryczna ( . Może przyjmować wartości dodatnie lub ujemne, ale wynosi zero, jeśli X i Y niezależne . Należy zauważyć, że chociaż PMI może być ujemny lub dodatni, jego oczekiwany wynik w stosunku do wszystkich wspólnych zdarzeń (MI) jest dodatni. PMI maksymalizuje się, gdy X i Y są doskonale powiązane (tj. lub ), dając następujące granice: p ( x | r ) {\ Displaystyle

Wreszcie wzrośnie, jeśli zostanie ustalone, ale maleje.

Oto przykład dla zilustrowania:

X y p ( x , y )
0 0 0,1
0 1 0,7
1 0 0,15
1 1 0,05

Korzystając z tej tabeli, możemy zmarginalizować , aby uzyskać następującą dodatkową tabelę dla poszczególnych rozkładów:

p ( x ) p ( y )
0 0,8 0,25
1 0,2 0,75

W tym przykładzie możemy obliczyć cztery wartości dla . Używając logarytmów o podstawie 2:

pmi(x=0;y=0) = −1
pmi(x=0;y=1) = 0,222392
pmi(x=1;y=0) = 1.584963
pmi(x=1;y=1) = -1,584963

Dla , informacja

Podobieństwa do wzajemnej informacji

Punktowe wzajemne informacje mają wiele takich samych relacji, jak wzajemne informacje. W szczególności,

gdzie lub \ log {2} }

Warianty

Zaproponowano kilka odmian PMI, w szczególności w celu rozwiązania tego, co zostało opisane jako „dwa główne ograniczenia”:

  1. PMI może przyjmować zarówno wartości dodatnie, jak i ujemne i nie ma ustalonych granic, co utrudnia jego interpretację.
  2. PMI ma „dobrze znaną tendencję do nadawania wyższych ocen zdarzeniom o niskiej częstotliwości”, ale w zastosowaniach takich jak pomiar podobieństwa słów lepiej jest mieć „wyższy wynik dla par słów, których pokrewieństwo jest poparte większą liczbą dowodów”.

Pozytywny wskaźnik PMI

Dodatnia punktowa miara wzajemnej informacji (PPMI) jest definiowana przez ustawienie ujemnych wartości PMI na zero:

Ta definicja jest motywowana obserwacją, że „ujemne wartości PMI (które oznaczają, że rzeczy współwystępują rzadziej, niż byśmy tego oczekiwali przez przypadek) wydają się być niewiarygodne, chyba że nasze korpusy są ogromne”, a także obawą, że „nie jest jasne, czy można nawet ocenić takie wyniki „niepowiązania” z ludzkim osądem”. to również uniknąć konieczności zajmowania się dla zdarzeń, które nigdy nie występują razem ( ), ustawiając dla nich PPMI na 0.

Znormalizowane wzajemne informacje punktowe (npmi)

Punktowe wzajemne informacje można znormalizować w zakresie [-1,+1], co daje -1 (w granicach) dla nigdy nie występujących razem, 0 dla niezależności i +1 dla całkowitego współwystępowania .

gdzie jest wspólną samoinformacją .

Rodzina PMI k

k PMI (dla k = 2, 3 itd.), Wprowadzona przez Béatrice Daille około 1994 r., A od 2011 r. Opisana jako „jedna z najczęściej używanych wariantów”, jest zdefiniowana jako

W szczególności . Dodatkowe czynniki niskiej częstotliwości poprzez zwiększenie wyników częstych par Studium przypadku z 2011 roku wykazało sukces PMI 3 w korygowaniu tego uprzedzenia w korpusie zaczerpniętym z angielskiej Wikipedii. Biorąc słowa y według miary PMI (tj. maksymalizujące) „ pomocnik”, „obrońcy”, „bramkarze”), podczas gdy terminy najwyżej oceniane przez PMI 3 były znacznie bardziej ogólne („liga”, „kluby”, „anglia”).

Reguła łańcuchowa dla pmi

Podobnie jak wzajemne informacje , wzajemne informacje punktowe są zgodne z regułą łańcucha , to znaczy:

Udowodniono to poprzez zastosowanie twierdzenia Bayesa :

Aplikacje

PMI może znaleźć zastosowanie w różnych dyscyplinach, np. w teorii informacji, językoznawstwie czy chemii (w profilowaniu i analizie związków chemicznych). W lingwistyce komputerowej PMI był używany do znajdowania kolokacji i powiązań między słowami. przykład zliczanie wystąpień i współwystępowania słów w tekstowym można prawdopodobieństw i . Poniższa tabela pokazuje liczbę par słów, które uzyskały najwięcej i najmniej wyników PMI w pierwszych 50 milionach słów w Wikipedii (zrzut z października 2015 r.) [ Potrzebne źródło ] filtrowanie przez 1000 lub więcej współwystąpień. Częstotliwość każdego zliczania można uzyskać, dzieląc jego wartość przez 50 000 952. (Uwaga: logarytm naturalny jest używany do obliczania wartości PMI w tym przykładzie zamiast logarytmu o podstawie 2)

słowo 1 słowo 2 policz słowo 1 policz słowo 2 liczba współwystępowań PMI
porto Ryko 1938 1311 1159 10.0349081703
hong kong 2438 2694 2205 9.72831972408
przegrać anioły 3501 2808 2791 9.56067615065
węgiel dwutlenek 4265 1353 1032 9.09852946116
nagroda laureat 5131 1676 1210 8.85870710982
San Franciszek 5237 2477 1779 8.83305176711
Nobla nagroda 4098 5131 2498 8.68948811416
lód hokej 5607 3002 1933 8.6555759741
gwiazda wędrówka 8264 1594 1489 8.63974676575
samochód kierowca 5578 2749 1384 8.41470768304
To the 283891 3293296 3347 -1.72037278119
Czy z 234458 1761436 1019 -2.09254205335
Ten the 199882 3293296 1211 -2,38612756961
Jest z 565679 1761436 1562 -2,54614706831
I z 1375396 1761436 2949 -2,79911817902
A I 984442 1375396 1457 -2,92239510038
W I 1187652 1375396 1537 -3,05660070757
Do I 1025659 1375396 1286 -3,08825363041
Do W 1025659 1187652 1066 -3,12911348956
z I 1761436 1375396 1190 -3,70663100173

Dobre pary kolokacji mają wysoki PMI, ponieważ prawdopodobieństwo współwystępowania jest tylko nieznacznie niższe niż prawdopodobieństwo wystąpienia każdego słowa. I odwrotnie, para słów, których prawdopodobieństwo wystąpienia jest znacznie wyższe niż prawdopodobieństwo ich współwystąpienia, otrzymuje mały wynik PMI.

Linki zewnętrzne