Całkowita korelacja

W teorii prawdopodobieństwa , aw szczególności w teorii informacji , korelacja całkowita (Watanabe 1960) jest jednym z kilku uogólnień wzajemnej informacji . Znany jest również jako ograniczenie wielowymiarowe (Garner 1962) lub multiinformacyjny (Studený i Vejnarová 1999). Określa ilościowo nadmiarowość lub zależność między zbiorem n zmiennych losowych.

Definicja

$_$ danego n zmiennych _ ${\ Displaystyle C (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ jest definiowany jako rozbieżność Kullbacka-Leiblera ze wspólnego rozkładu ${\ Displaystyle p (X_ {1}, \ ldots, X_ {n})}$ do niezależnej dystrybucji ${\ Displaystyle p(X_{1})p(X_{2})\cdots p(X_{n})}$ ,

{\ Displaystyle C (X_ {1}, X_ {2}, \ ldots, X_ {n}) \ równoważnik \ nazwa operatora {D_ {KL}} \ lewo [p (X_ {1}, \ ldots, X_ {n} )\|p(X_{1})p(X_{2})\cdots p(X_{n})\right]\;.}

Ta rozbieżność sprowadza się do prostszej różnicy entropii,

{\ Displaystyle C (X_ {1}, X_{2},\ldots ,X_{n})=\left[\sum _{i=1}^{n}H(X_{i})\right]-H(X_{1},X_{2 },\ldots ,X_{n})}

gdzie $i})}$ ${\ Displaystyle H (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ $1$ jest entropią informacyjną zmiennej H jest łączną entropią zbioru zmiennych ${\ Displaystyle \ {X_ {1}, X_ {2}, \ ldots, X_ {n} \}}$ . Jeśli chodzi o dyskretne rozkłady prawdopodobieństwa zmiennych, $\ {X_ {1}, X_ {2}, \ ldots$ \ jest dany przez

{\ Displaystyle C (X_ {1}, X_ {2}, \ ldots, X_ {n}) = \ suma _ {x_ {1} \ w {\ mathcal {X}} _ {1}} \ suma _ { x_{2}\in {\mathcal {X}}_{2}}\ldots \sum _{x_{n}\in {\mathcal {X}}_{n}}p(x_{1},x_ {2},\ldots,x_{n})\log {\frac {p(x_{1},x_{2},\ldots,x_{n})}{p(x_{1})p(x_ {2})\cdots p(x_{n})}}.}

Całkowita korelacja to ilość informacji współdzielonych między zmiennymi w zbiorze. Suma ${\ Displaystyle {\ rozpocząć {macierz} \ suma _ {i = 1} ^ {n} H (X_ {i}) \ koniec {macierz}}} reprezentuje$ kwotę informacji w bitach (zakładając logi o podstawie 2), które posiadałyby zmienne, gdyby były całkowicie niezależne od siebie (nieredundantne) lub, równoważnie, średnia długość kodu do przesyłania wartości wszystkich zmiennych, gdyby każda zmienna była ( optymalnie) kodowane niezależnie. Termin ${\ Displaystyle H (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ to rzeczywista ilość informacji, które zawiera zestaw zmiennych, lub równoważnie, średnia długość kodu do przesłania wartości wszystkich zmiennych, jeśli zestaw zmiennych został (optymalnie) zakodowany razem. Różnica między tymi terminami reprezentuje zatem bezwzględną redundancję (w bitach) obecną w danym zestawie zmiennych, a tym samym zapewnia ogólną miarę ilościową struktury lub organizacja zawarta w zbiorze zmiennych (Rothstein 1952). Całkowita korelacja jest również rozbieżnością Kullbacka – Leiblera między rzeczywistym rozkładem ${\ Displaystyle p (X_ {1}, X_ {2}, \ ldots, X_ {n}) }$ i przybliżenie jego iloczynu maksymalnej entropii ( $X_ {2}) \ cdots p (X_ {n})}$

Całkowita korelacja określa ilościowo stopień zależności między grupą zmiennych. Całkowita korelacja bliska zeru wskazuje, że zmienne w grupie są zasadniczo statystycznie niezależne; są one całkowicie niepowiązane w tym sensie, że znajomość wartości jednej zmiennej nie daje żadnej wskazówki co do wartości innych zmiennych. Z drugiej strony maksymalna łączna korelacja (dla ustalonego zestawu pojedynczych entropii) ${\ Displaystyle H (X_ {1}), ..., H ($ ) jest dany przez

{\ Displaystyle C _ {\ max} = \ suma _ {i = 1} ^ {n} H (X_ {i} )-\max \limits _{X_{i}}H(X_{i}),}

i występuje, gdy jedna ze zmiennych determinuje wszystkie pozostałe zmienne. Zmienne są wtedy maksymalnie powiązane w tym sensie, że znajomość wartości jednej zmiennej dostarcza pełnej informacji o wartościach wszystkich pozostałych zmiennych, a zmienne można w przenośni traktować jako trybiki, w których pozycja jednego trybika określa pozycje wszystkich inni (Rothstein 1952).

Należy zauważyć, że całkowita korelacja zlicza wszystkie redundancje w zbiorze zmiennych, ale te redundancje mogą być rozłożone w zbiorze zmiennych na wiele skomplikowanych sposobów (Garner 1962). Na przykład niektóre zmienne w zestawie mogą być całkowicie redundantne, podczas gdy inne w zestawie są całkowicie niezależne. Co być może ważniejsze, redundancja może być przenoszona w interakcjach o różnym stopniu: grupa zmiennych może nie mieć żadnych redundancji parami, ale może mieć interakcje wyższego rzędu redundancje w rodzaju funkcji parzystości. Dekompozycja całkowitej korelacji na składowe redundancje jest badana w wielu źródłach (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny i Vejnarova 1999, Jakulin i Bratko 2003a, Jakulin i Bratko 2003b, Nemenman 2004, Margolin i in. 2008, Han 1978, Han 1980).

Warunkowa korelacja całkowita

Warunkowa korelacja całkowita jest definiowana analogicznie do korelacji całkowitej, ale z dodaniem warunku do każdego składnika. Warunkowa korelacja całkowita jest podobnie zdefiniowana jako rozbieżność Kullbacka-Leiblera między dwoma rozkładami prawdopodobieństwa warunkowego,

{\ Displaystyle C (X_ {1}, X_ {2}, \ ldots, X_ {n} | Y = y) \ równoważnik \ nazwa operatora {D_ {KL}} \ lewo [p (X_ {1}, \ ldots, X_{n}|Y=y)\|p(X_{1}|Y=y)p(X_{2}|Y=y)\cdots p(X_{n}|Y=y)\prawo]\ ;.}

Analogicznie do powyższego, warunkowa korelacja całkowita sprowadza się do różnicy entropii warunkowych,

{\ Displaystyle C (X_ {1}, X_ {2}, \ ldots, X_ {n} | Y = y) = \ suma _ {i = 1} ^ {n} H (X_ {i} | Y = y )-H(X_{1},X_{2},\ldoks ,X_{n}|Y=y)}

Zastosowania całkowitej korelacji

grupowania i selekcji cech oparte na całkowitej korelacji zostały zbadane przez Watanabe. Alfonso i in. (2010) zastosowali koncepcję całkowitej korelacji do optymalizacji sieci monitoringu wód.

Zobacz też

Alfonso L., Lobbrecht A. i Price R. (2010). Optymalizacja sieci monitorowania poziomu wody w systemach polderowych z wykorzystaniem teorii informacji , Badania zasobów wodnych , 46, W12553, 13 PP., 2010, doi : 10.1029/2009WR008953 .
Garner WR (1962). Niepewność i struktura jako koncepcje psychologiczne , JohnWiley & Sons, Nowy Jork.
Han TS (1978). Nieujemne miary entropii wielowymiarowych korelacji symetrycznych, Informacja i kontrola 36 , 133–156.
Han TS (1980). Wiele wzajemnych informacji i wiele interakcji w danych dotyczących częstotliwości, Informacja i kontrola 46 , 26–45.
Jakulin A i Bratko I (2003a). Analizowanie zależności atrybutów, w: N Lavra\quad{c}, D Gamberger, L Todorovski & H Blockeel, red., Proceedings of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases , Springer, Cavtat-Dubrovnik, Chorwacja, s. 229–240.
Jakulin A & Bratko I (2003b). Kwantyfikacja i wizualizacja interakcji atrybutów [1] .
Margolin A, Wang K, Califano A i Nemenman I (2010). Zależność wielowymiarowa i wnioskowanie o sieciach genetycznych. IET Syst Biol 4 , 428.
McGill WJ (1954). Wielowymiarowa transmisja informacji, Psychometrika 19 , 97–116.
Niemenman I (2004). Teoria informacji, zależność wielowymiarowa i wnioskowanie o sieci genetycznej [2] .
Rothstein J. (1952). Organizacja i entropia, Journal of Applied Physics 23 , 1281–1282.
Studený M & Vejnarová J (1999). Funkcja wieloinformacyjna jako narzędzie do pomiaru zależności stochastycznej, w: MI Jordan, red., Learning in Graphical Models , MIT Press, Cambridge, MA, s. 261–296.
Watanabe S (1960). Teoretyczna analiza informacji korelacji wielowymiarowej, IBM Journal of Research and Development 4 , 66–82.