W artykule omówiono, w jaki sposób teoria informacji (dział matematyki zajmujący się transmisją, przetwarzaniem i przechowywaniem informacji ) jest powiązana z teorią miary (dział matematyki związany z całkowaniem i prawdopodobieństwem ).
Miary w teorii informacji
Wiele pojęć w teorii informacji ma oddzielne definicje i wzory dla przypadków ciągłych i dyskretnych . Na przykład entropia jest zwykle definiowana dla dyskretnych zmiennych losowych, podczas gdy dla ciągłych zmiennych losowych powiązana koncepcja jest h , jest używany (zob. Cover i Thomas, 2006, rozdział 8). Obie te koncepcje są oczekiwaniami matematycznymi , ale oczekiwanie jest zdefiniowane za pomocą całki dla przypadku ciągłego i sumy dla przypadku dyskretnego.
Te oddzielne definicje mogą być ściślej powiązane pod względem teorii miary . W przypadku dyskretnych zmiennych losowych funkcje masy prawdopodobieństwa można uznać za funkcje gęstości w odniesieniu do miary zliczania. Myślenie o całce i sumie jako integracji w przestrzeni miary pozwala na ujednolicone traktowanie.
Rozważmy wzór na entropię różniczkową ciągłej zmiennej losowej z zakresem funkcją gęstości prawdopodobieństwa : }
Można to zwykle interpretować jako następującą całkę Riemanna – Stieltjesa :
gdzie jest miarą .
Jeśli zamiast tego, \ displaystyle \ Ω jest miarą zliczania na , możemy napisać:
Wyrażenie całkowe i ogólne pojęcie są identyczne w przypadku ciągłym; jedyną różnicą jest zastosowana miara. W obu przypadkach funkcja gęstości prawdopodobieństwa jest pochodną -Nikodyma miary prawdopodobieństwa względem miary, względem której obliczana jest całka
Jeśli jest miarą prawdopodobieństwa indukowaną przez , to można również przyjąć bezpośrednio w odniesieniu do : }
zamiast podstawowej miary μ weźmiemy inną miarę prawdopodobieństwa do dywergencji Kullbacka – Leiblera : niech będą prawdopodobieństwa w tej samej przestrzeni . jeśli jest absolutnie ciągły w odniesieniu do , napisanego ll Radona – Nikodyma istnieje Kullbacka – Leiblera można wyrazić w pełnej
całka przebiega po podporze P Zauważ, że zrezygnowaliśmy ze znaku ujemnego: rozbieżność Kullbacka – Leiblera jest zawsze nieujemna z powodu nierówności Gibbsa .
Entropia jako „miara”
Diagram Venna dla różnych miar informacyjnych powiązanych ze skorelowanymi zmiennymi
X i
Y . Pole zawarte w obu okręgach to wspólna entropia
H (
X ,
Y ). Kółko po lewej stronie (czerwony i cyjan) to indywidualna entropia
H (
X ), a czerwony to warunkowa entropia
H (
X |
Y ). Okrąg po prawej stronie (niebieski i cyjan) to
H (
Y ), a niebieski to
H (
Y |
X ). Cyjan to informacja wzajemna
I (
X ;
Y ).
Diagram Venna informacyjno-teoretycznych miar dla trzech zmiennych
x ,
y i
z . Każde koło reprezentuje indywidualną
entropię :
H (
x ) to lewe dolne kółko,
H (
y ) prawe dolne kółko, a
H (
z ) to górne kółko. Punkty przecięcia dowolnych dwóch okręgów reprezentują
informacje wzajemne dla dwóch powiązanych zmiennych (np.
I (
x ;
z ) jest żółty i szary). Suma dowolnych dwóch okręgów jest
łączną entropią dla dwóch powiązanych zmiennych (np.
H (
x ,
y ) nie jest zielone). Wspólna entropia
H (
x ,
y ,
z ) wszystkich trzech zmiennych jest sumą wszystkich trzech okręgów. Jest podzielony na 7 części, czerwony, niebieski i zielony to
warunkowe entropie H (
x |
y ,
z ),
H (
y |
x ,
z ),
H (
z |
x ,
y ) odpowiednio, żółty, magenta i cyjan to
warunkowe wzajemne informacje I (
x ;
z |
y ),
I (
y ;
z |
x ) i
I (
x ;
y |
z ) odpowiednio, a szary to
wielowymiarowa informacja wzajemna I (
x ;
y ;
z ). Wielowymiarowa wzajemna informacja jest jedyną ze wszystkich, które mogą być negatywne.
Istnieje analogia między podstawowymi „ miarami ” zawartości informacyjnej zmiennych losowych Shannona a miarą zbiorów. Mianowicie entropię łączną , entropię warunkową i informację wzajemną można uznać odpowiednio za miarę sumy zbioru , różnicy zbioru i przecięcia zbioru (Reza s. 106–108).
Jeśli połączymy istnienie zbiorów abstrakcyjnych i dowolnymi dyskretnymi zmiennymi losowymi X i Y , w jakiś sposób reprezentującymi informacje przenoszone przez X ~ X i Y takie, że:
-
ilekroć X i Y są bezwarunkowo niezależne , i
-
ilekroć X i Y są takie, że jeden jest całkowicie określony przez drugi (tj. Przez bijekcję);
gdzie jest miarą ze znakiem na tych zbiorach, a my ustalamy:
stwierdzamy, że „miara” treści informacyjnej Shannona spełnia wszystkie postulaty i podstawowe właściwości formalnej miary ze zbiorami, co zwykle ilustruje diagram informacyjny . Pozwala to na zapisanie sumy dwóch miar:
i analog twierdzenia Bayesa ( ) pozwala na zapisanie różnicy dwóch miar:
Może to być przydatne narzędzie mnemoniczne w niektórych sytuacjach, np
Należy zauważyć, że miary (oczekiwane wartości logarytmu) prawdziwych prawdopodobieństw nazywane są „entropią” i ogólnie oznaczane literą H , podczas gdy inne miary są często określane jako „informacja” lub „korelacja” i ogólnie oznaczane literą I . Dla uproszczenia zapisu, litera I jest czasami używana we wszystkich taktach.
Wielowymiarowe wzajemne informacje
Pewne rozszerzenia definicji podstawowych miar informacji Shannona są konieczne, aby poradzić sobie z algebrą σ generowaną przez zbiory, które byłyby powiązane z trzema lub więcej dowolnymi zmiennymi losowymi. (Patrz Reza s. 106–108, aby zapoznać się z nieformalną, ale raczej kompletną dyskusją). Z zdefiniowana w oczywisty sposób jako entropia łącznego rozkładu i wielowymiarowa informacja wzajemna zdefiniowane w odpowiedni sposób, abyśmy mogli ustawić:
w celu zdefiniowania miary (ze znakiem) w całej σ-algebrze. Nie ma jednej, powszechnie akceptowanej definicji wielowymiarowej informacji wzajemnej, ale ta, która odpowiada tutaj miarie przecięcia zbioru, pochodzi od Fano (1966: s. 57-59). Definicja jest rekurencyjna. Jako przypadek bazowy wzajemne informacje pojedynczej zmiennej losowej definiuje się jako jej entropię: . Następnie dla ustawiamy
gdzie warunkowa informacja wzajemna jest zdefiniowana jako
Pierwszy krok w rekurencji daje definicję Shannona Wielowymiarowa informacja wzajemna (taka sama jak informacja o interakcji ale dla zmiany znaku) trzech lub więcej zmiennych losowych może być zarówno ujemna, jak i dodatnia: Niech X i Y będą dwoma niezależnymi uczciwymi rzutami monetą i niech Z będzie ich wyłącznym lub . Wtedy bit.
zmiennych losowych: na wspólnym X i Y względem Z i może być interpretowane jako znaczenie ja lub
Zobacz też