Punktowe wzajemne informacje
W statystyce , teorii prawdopodobieństwa i teorii informacji , wzajemna informacja punktowa ( PMI ) lub wzajemna informacja punktowa jest miarą asocjacji . Porównuje prawdopodobieństwo wystąpienia dwóch zdarzeń razem z tym, jakie byłoby to prawdopodobieństwo, gdyby zdarzenia były niezależne .
PMI (zwłaszcza w jego pozytywnym, punktowym wariancie wzajemnej informacji ) został opisany jako „jedna z najważniejszych koncepcji w NLP ”, gdzie „opiera się na intuicji, że najlepszym sposobem na zważenie związku między dwoma słowami jest pytanie, o ile więcej te dwa słowa współwystępują w [a] korpusie, niż a priori spodziewalibyśmy się, że pojawią się przypadkowo”.
Pojęcie to zostało wprowadzone w 1961 roku przez Roberta Fano pod nazwą „informacji wzajemnych”, ale obecnie termin ten jest używany w odniesieniu do powiązanej miary zależności między zmiennymi losowymi: Informacja wzajemna (MI) dwóch dyskretnych zmiennych losowych odnosi się do średniej PMI wszystkich możliwych zdarzeń.
Definicja
PMI pary wyników x i y należących do dyskretnych zmiennych losowych X i Y kwantyfikuje rozbieżność między prawdopodobieństwem ich zbieżności, biorąc pod uwagę ich wspólny rozkład , a ich indywidualnymi rozkładami, przy założeniu niezależności . Matematycznie:
(przy czym dwa ostatnie wyrażenia są równe pierwszemu na mocy twierdzenia Bayesa ). Wzajemna informacja (MI) zmiennych losowych X i Y to oczekiwana wartość PMI (po wszystkich możliwych wynikach).
Miara jest symetryczna ( . Może przyjmować wartości dodatnie lub ujemne, ale wynosi zero, jeśli X i Y są niezależne . Należy zauważyć, że chociaż PMI może być ujemny lub dodatni, jego oczekiwany wynik w stosunku do wszystkich wspólnych zdarzeń (MI) jest dodatni. PMI maksymalizuje się, gdy X i Y są doskonale powiązane (tj. lub ), dając następujące granice: p ( x | r ) {\ Displaystyle
Wreszcie wzrośnie, jeśli zostanie ustalone, ale maleje.
Oto przykład dla zilustrowania:
X | y | p ( x , y ) |
---|---|---|
0 | 0 | 0,1 |
0 | 1 | 0,7 |
1 | 0 | 0,15 |
1 | 1 | 0,05 |
Korzystając z tej tabeli, możemy zmarginalizować , aby uzyskać następującą dodatkową tabelę dla poszczególnych rozkładów:
p ( x ) | p ( y ) | |
---|---|---|
0 | 0,8 | 0,25 |
1 | 0,2 | 0,75 |
W tym przykładzie możemy obliczyć cztery wartości dla . Używając logarytmów o podstawie 2:
pmi(x=0;y=0) | = | −1 |
pmi(x=0;y=1) | = | 0,222392 |
pmi(x=1;y=0) | = | 1.584963 |
pmi(x=1;y=1) | = | -1,584963 |
Dla , informacja
Podobieństwa do wzajemnej informacji
Punktowe wzajemne informacje mają wiele takich samych relacji, jak wzajemne informacje. W szczególności,
gdzie lub \ log {2} }
Warianty
Zaproponowano kilka odmian PMI, w szczególności w celu rozwiązania tego, co zostało opisane jako „dwa główne ograniczenia”:
- PMI może przyjmować zarówno wartości dodatnie, jak i ujemne i nie ma ustalonych granic, co utrudnia jego interpretację.
- PMI ma „dobrze znaną tendencję do nadawania wyższych ocen zdarzeniom o niskiej częstotliwości”, ale w zastosowaniach takich jak pomiar podobieństwa słów lepiej jest mieć „wyższy wynik dla par słów, których pokrewieństwo jest poparte większą liczbą dowodów”.
Pozytywny wskaźnik PMI
Dodatnia punktowa miara wzajemnej informacji (PPMI) jest definiowana przez ustawienie ujemnych wartości PMI na zero:
Ta definicja jest motywowana obserwacją, że „ujemne wartości PMI (które oznaczają, że rzeczy współwystępują rzadziej, niż byśmy tego oczekiwali przez przypadek) wydają się być niewiarygodne, chyba że nasze korpusy są ogromne”, a także obawą, że „nie jest jasne, czy można nawet ocenić takie wyniki „niepowiązania” z ludzkim osądem”. to również uniknąć konieczności zajmowania się dla zdarzeń, które nigdy nie występują razem ( ), ustawiając dla nich PPMI na 0.
Znormalizowane wzajemne informacje punktowe (npmi)
Punktowe wzajemne informacje można znormalizować w zakresie [-1,+1], co daje -1 (w granicach) dla nigdy nie występujących razem, 0 dla niezależności i +1 dla całkowitego współwystępowania .
gdzie jest wspólną samoinformacją .
Rodzina PMI k
k PMI (dla k = 2, 3 itd.), Wprowadzona przez Béatrice Daille około 1994 r., A od 2011 r. Opisana jako „jedna z najczęściej używanych wariantów”, jest zdefiniowana jako
W szczególności . Dodatkowe czynniki niskiej częstotliwości poprzez zwiększenie wyników częstych par Studium przypadku z 2011 roku wykazało sukces PMI 3 w korygowaniu tego uprzedzenia w korpusie zaczerpniętym z angielskiej Wikipedii. Biorąc słowa y według miary PMI (tj. maksymalizujące) „ pomocnik”, „obrońcy”, „bramkarze”), podczas gdy terminy najwyżej oceniane przez PMI 3 były znacznie bardziej ogólne („liga”, „kluby”, „anglia”).
Reguła łańcuchowa dla pmi
Podobnie jak wzajemne informacje , wzajemne informacje punktowe są zgodne z regułą łańcucha , to znaczy:
Udowodniono to poprzez zastosowanie twierdzenia Bayesa :
Aplikacje
PMI może znaleźć zastosowanie w różnych dyscyplinach, np. w teorii informacji, językoznawstwie czy chemii (w profilowaniu i analizie związków chemicznych). W lingwistyce komputerowej PMI był używany do znajdowania kolokacji i powiązań między słowami. przykład zliczanie wystąpień i współwystępowania słów w tekstowym można prawdopodobieństw i . Poniższa tabela pokazuje liczbę par słów, które uzyskały najwięcej i najmniej wyników PMI w pierwszych 50 milionach słów w Wikipedii (zrzut z października 2015 r.) [ Potrzebne źródło ] filtrowanie przez 1000 lub więcej współwystąpień. Częstotliwość każdego zliczania można uzyskać, dzieląc jego wartość przez 50 000 952. (Uwaga: logarytm naturalny jest używany do obliczania wartości PMI w tym przykładzie zamiast logarytmu o podstawie 2)
słowo 1 | słowo 2 | policz słowo 1 | policz słowo 2 | liczba współwystępowań | PMI |
---|---|---|---|---|---|
porto | Ryko | 1938 | 1311 | 1159 | 10.0349081703 |
hong | kong | 2438 | 2694 | 2205 | 9.72831972408 |
przegrać | anioły | 3501 | 2808 | 2791 | 9.56067615065 |
węgiel | dwutlenek | 4265 | 1353 | 1032 | 9.09852946116 |
nagroda | laureat | 5131 | 1676 | 1210 | 8.85870710982 |
San | Franciszek | 5237 | 2477 | 1779 | 8.83305176711 |
Nobla | nagroda | 4098 | 5131 | 2498 | 8.68948811416 |
lód | hokej | 5607 | 3002 | 1933 | 8.6555759741 |
gwiazda | wędrówka | 8264 | 1594 | 1489 | 8.63974676575 |
samochód | kierowca | 5578 | 2749 | 1384 | 8.41470768304 |
To | the | 283891 | 3293296 | 3347 | -1.72037278119 |
Czy | z | 234458 | 1761436 | 1019 | -2.09254205335 |
Ten | the | 199882 | 3293296 | 1211 | -2,38612756961 |
Jest | z | 565679 | 1761436 | 1562 | -2,54614706831 |
I | z | 1375396 | 1761436 | 2949 | -2,79911817902 |
A | I | 984442 | 1375396 | 1457 | -2,92239510038 |
W | I | 1187652 | 1375396 | 1537 | -3,05660070757 |
Do | I | 1025659 | 1375396 | 1286 | -3,08825363041 |
Do | W | 1025659 | 1187652 | 1066 | -3,12911348956 |
z | I | 1761436 | 1375396 | 1190 | -3,70663100173 |
Dobre pary kolokacji mają wysoki PMI, ponieważ prawdopodobieństwo współwystępowania jest tylko nieznacznie niższe niż prawdopodobieństwo wystąpienia każdego słowa. I odwrotnie, para słów, których prawdopodobieństwo wystąpienia jest znacznie wyższe niż prawdopodobieństwo ich współwystąpienia, otrzymuje mały wynik PMI.
- Fano, RM (1961). "Rozdział 2". Przekazywanie informacji: statystyczna teoria komunikacji . MIT Press, Cambridge, MA. ISBN 978-0262561693 .
Linki zewnętrzne
- Demo na Rensselaer MSR Server (wartości PMI znormalizowane do przedziału od 0 do 1)