Rozbieżność (statystyki)
W geometrii informacyjnej rozbieżność jest rodzajem odległości statystycznej : funkcją binarną , która określa rozdzielenie jednego rozkładu prawdopodobieństwa od drugiego na rozmaitości statystycznej .
Najprostszą rozbieżnością jest kwadrat odległości euklidesowej (SED), a rozbieżności można postrzegać jako uogólnienia SED. Inną najważniejszą rozbieżnością jest względna entropia ( dywergencja Kullbacka-Leiblera , dywergencja KL), która ma kluczowe znaczenie dla teorii informacji . Istnieje wiele innych specyficznych rozbieżności i klas rozbieżności, w szczególności rozbieżności f i rozbieżności Bregmana (patrz § Przykłady ).
Definicja
Biorąc pod uwagę rozmaitość , rozbieżność na M jest funkcją - do satysfakcjonujące:
- dla wszystkich (nieujemne),
- wtedy i tylko wtedy, gdy (pozytywność),
- W każdym punkcie jest dodatnio określona forma kwadratowa dla nieskończenie małych przemieszczeń re od .
W zastosowaniach statystycznych rozmaitość parametrów parametrycznej rodziny rozkładów prawdopodobieństwa .
oznacza, że definiuje iloczyn wewnętrzny w przestrzeni stycznej dla każdego . Ponieważ jest definiuje metrykę . _
Lokalnie w możemy skonstruować lokalny wykres współrzędnych ze współrzędnymi , wtedy rozbieżność wynosi
Analiza wymiarowa warunku 3 pokazuje, że rozbieżność ma wymiar kwadratu odległości.
Podwójna rozbieżność jest zdefiniowana jako
chcemy z odnosimy do _ _
Biorąc pod uwagę jakąkolwiek rozbieżność , jej symetryczną wersję uzyskuje się przez uśrednienie jej z podwójną rozbieżnością:
Różnica w stosunku do innych podobnych koncepcji
W przeciwieństwie do metryk rozbieżności nie muszą być symetryczne, a asymetria jest ważna w aplikacjach. W związku z tym często odnosi się asymetrycznie do rozbieżności „ q od p ” lub „od p do q ”, a nie „między p i q ”. Po drugie, rozbieżności uogólniają kwadratową , a nie liniową, a zatem nie spełniają nierówności trójkąta , ale niektóre rozbieżności (takie jak rozbieżność Bregmana ) spełniają uogólnienia twierdzenia Pitagorasa .
{ \ Displaystyle rozpatrywanych, tak aby spełnione były warunki 1, 2. Warunek 3 jest wymagany dla „rozbieżności” stosowanej w geometrii informacyjnej.
Na przykład całkowita odległość zmienności , powszechnie stosowana rozbieżność statystyczna, nie spełnia warunku 3.
Notacja
Notacja rozbieżności różni się znacznie w zależności od dziedziny, chociaż istnieją pewne konwencje.
w odróżnić je od odległości metrycznych, które są oznaczane małą literą „d” Gdy używanych jest wiele rozbieżności, zwykle rozróżnia się je za pomocą indeksów dolnych, jak w dywergencji – Leiblera (dywergencja KL)
Często stosuje się inny separator między parametrami, szczególnie w celu podkreślenia asymetrii. W teorii informacji powszechnie stosuje się podwójną kreskę: ; to podobne do notacji prawdopodobieństwa warunkowego , ale różni się od niego jako pomiaru względnego, jak entropii ten zapis jest wspólny dla dywergencji KL. Zamiast tego można użyć dwukropka, ponieważ ; podkreśla to względne informacje wspierające te dwie dystrybucje.
Notacja parametrów jest również różna. P interpretuje parametry jako rozkłady prawdopodobieństwa, podczas gdy małe litery , interpretują je geometrycznie jako punkty w przestrzeni, P , Q {\ Displaystyle P i _ _
Właściwości geometryczne
Wiele właściwości rozbieżności można wyprowadzić, jeśli ograniczymy S do rozmaitości statystycznej, co oznacza, że można ją sparametryzować za pomocą skończonego wymiarowego układu współrzędnych θ , tak że dla rozkładu p ∈ S możemy zapisać p = p ( θ ) .
Dla pary punktów p , q ∈ S o współrzędnych θ p i θ q , oznaczmy pochodne cząstkowe D ( p , q ) jako
Teraz ograniczamy te funkcje do przekątnej p = q i oznaczamy
Z definicji funkcja D ( p , q ) jest minimalizowana przy p = q , a zatem
gdzie macierz g ( D ) jest dodatnio półokreślona i definiuje unikalną metrykę Riemanna na rozmaitości S .
Rozbieżność D (·, ·) definiuje również unikalne bezskrętne połączenie afiniczne ∇ ( D ) ze współczynnikami
a połączenie dualne do tego połączenia ∇* jest generowane przez dywergencję dualną D *.
Zatem rozbieżność D (·, ·) generuje na rozmaitości statystycznej unikalną strukturę dualistyczną ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). Prawdziwa jest również sytuacja odwrotna: każda dualistyczna struktura bez skręcenia na rozmaitości statystycznej jest indukowana z jakiejś globalnie zdefiniowanej funkcji dywergencji (która jednak nie musi być unikalna).
Na przykład, gdy D jest dywergencją f dla jakiejś funkcji ƒ(·), to generuje metrykę g ( D f ) = c ·g i związek ∇ ( D f ) = ∇ ( α ) , gdzie g jest kanoniczna metryka informacyjna Fishera , ∇ ( α ) to połączenie α, c = ƒ′′(1) , a α = 3 + 2ƒ′′′(1)/ƒ′′(1) .
Przykłady
Dwie najważniejsze rozbieżności to względna entropia ( dywergencja Kullbacka – Leiblera , dywergencja KL), która ma kluczowe znaczenie dla teorii informacji i statystyki, oraz kwadrat odległości euklidesowej (SED). Minimalizowanie tych dwóch rozbieżności jest głównym sposobem rozwiązywania liniowego problemu odwrotnego , poprzez zasadę maksymalnej entropii i najmniejszych kwadratów , zwłaszcza w regresji logistycznej i regresji liniowej .
Dwie najważniejsze klasy rozbieżności to rozbieżności f i rozbieżności Bregmana ; jednak w literaturze spotyka się również inne rodzaje funkcji dywergencji. Jedyną rozbieżnością, która jest zarówno f , jak i dywergencją Bregmana, jest dywergencja Kullbacka – Leiblera; kwadratowa dywergencja euklidesowa jest dywergencją (odpowiadającą funkcji , ale nie dywergencją f
rozbieżności f
Biorąc pod uwagę funkcję wypukłą taka, że rozbieżność generowana przez jest zdefiniowany jako
Dywergencja Kullbacka – Leiblera : | |
kwadrat odległości Hellingera : | |
Dywergencja Jensena – Shannona : | |
dywergencja α | |
dywergencja chi-kwadrat : | |
( α , β )-iloczyn rozbieżności [ potrzebne źródło ] : |
Rozbieżności Bregmana
Rozbieżności Bregmana odpowiadają funkcjom wypukłym na zbiorach wypukłych. Biorąc pod uwagę ściśle wypukłą , różniczkowalną w sposób ciągły funkcję F na zbiorze wypukłym , znaną jako generator Bregmana , rozbieżność Bregmana mierzy wypukłość: błędu liniowego przybliżenia F z q jako przybliżenia wartości w p :
Podwójna rozbieżność z rozbieżnością Bregmana to rozbieżność generowana przez wypukły koniugat F * generatora Bregmana pierwotnej rozbieżności. Na przykład dla kwadratu odległości euklidesowej generatorem jest podczas gdy dla entropii względnej generatorem jest entropia .
Historia
Użycie terminu „dywergencja” - zarówno tego, do jakich funkcji się odnosi, jak i różnych odległości statystycznych - zmieniało się znacznie w czasie, ale o ok. 2000 osiedlił się w obecnym zastosowaniu w geometrii informacyjnej, zwłaszcza w podręczniku Amari i Nagaoka (2000) .
Termin „dywergencja” dla odległości statystycznej był używany nieformalnie w różnych kontekstach od ok. 1910 do ok. 1940. Jego formalne użycie datuje się co najmniej od Bhattacharyyi (1943) , zatytułowanego „O miarach rozbieżności między dwiema populacjami statystycznymi określonymi przez ich rozkłady prawdopodobieństwa”, który zdefiniował odległość Bhattacharyya , oraz Bhattacharyya (1946) , zatytułowanego „O miarce Rozbieżność między dwiema populacjami wielomianowymi”, która zdefiniowała kąt Bhattacharyya . Termin został spopularyzowany przez jego użycie w odniesieniu do rozbieżności Kullbacka – Leiblera w Kullback & Leibler (1951) oraz w podręczniku Kullback (1959) . Termin „dywergencja” był ogólnie używany przez Ali i Silvey (1966) w odniesieniu do odległości statystycznych. Liczne odniesienia do wcześniejszych zastosowań odległości statystycznych podano w Adhikari i Joshi (1956) oraz Kullback (1959 , s. 6–7, 1.3 Divergence).
Kullback i Leibler (1951) faktycznie użyli „rozbieżności” w odniesieniu do rozbieżności symetrycznej (funkcja ta została już zdefiniowana i użyta przez Harolda Jeffreysa w 1948 r.), Odnosząc się do funkcji asymetrycznej jako „średniej informacji dla dyskryminacji… na obserwację ”, podczas gdy Kullback (1959) odniósł się do funkcji asymetrycznej jako do „kierowanej dywergencji”. Ali i Silvey (1966) ogólnie określali taką funkcję jako „współczynnik rozbieżności” i wykazali, że wiele istniejących funkcji można wyrazić jako rozbieżności f , odnosząc się do funkcji Jeffreysa jako „miary rozbieżności Jeffreysa” (dziś „ Dywergencja Jeffreysa”) i asymetryczna funkcja Kullbacka – Leiblera (w każdym kierunku) jako „miary informacji dyskryminacyjnej Kullbacka i Leiblera” (dziś „dywergencja Kullbacka – Leiblera”).
Definicja rozbieżności w geometrii informacyjnej (temat tego artykułu) była początkowo określana terminami alternatywnymi, takimi jak „quasi-odległość” Amari (1982 , s. 369) i „funkcja kontrastu” Eguchi (1985) , chociaż „rozbieżność” była używany w Amari (1985) dla rozbieżności α i stał się standardem dla klasy ogólnej.
Termin „rozbieżność” jest przeciwieństwem odległości (metrycznej), ponieważ symetryczna rozbieżność nie spełnia nierówności trójkąta. Na przykład nadal występuje termin „odległość Bregmana”, ale obecnie preferowana jest „dywergencja Bregmana”.
Notacyjnie Kullback i Leibler (1951) oznaczyli ich funkcję asymetryczną jako , podczas gdy Ali i Silvey (1966) oznaczyli swoje funkcje małą literą „d” jako .
Zobacz też
Notatki
Bibliografia
- Adhikari, BP; Joshi, DD (1956). „Odległość, dyskryminacja i wyczerpujące CV” . Pub. Inst. Stan. Uniw. Paryż . 5 : 57–74.
- Amari, Shun-Ichi (1982). „Geometria różniczkowa zakrzywionych rodzin wykładniczych - krzywizny i utrata informacji”. Roczniki statystyki . 10 (2): 357–385. ISSN 0090-5364 . JSTOR 2240672 .
- Amari, Shun-Ichi (1985). Metody różniczkowo-geometryczne w statystyce . Notatki do wykładów ze statystyki. Tom. 28. Springer-Verlag.
- Amari, Shun-ichi ; Nagaoka, Hiroshi (2000). Metody geometrii informacyjnej . Oxford University Press. ISBN 0-8218-0531-2 .
- Amari, Shun-ichi (2016). Geometria informacji i jej zastosowania . Stosowane nauki matematyczne. Springera Japonia. s. XIII, 374. doi : 10.1007/978-4-431-55978-8 . ISBN 978-4-431-55977-1 .
- Bhattacharyya, A. (1946). „O mierze rozbieżności między dwiema populacjami wielomianowymi”. Sankhyā: The Indian Journal of Statistics (1933-1960) . 7 (4): 401–406. ISSN 0036-4452 . JSTOR 25047882 .
- Bhattacharyya, A. (1943). „O mierze rozbieżności między dwiema populacjami statystycznymi określonymi przez ich rozkłady prawdopodobieństwa”. Byk. Kalkuta Matematyka. soc . 35 : 99–109.
- Csiszar, Imre (1 grudnia 1991). „Dlaczego metoda najmniejszych kwadratów i maksymalna entropia? Aksjomatyczne podejście do wnioskowania dla liniowych problemów odwrotnych”. Roczniki statystyki . 19 (4). doi : 10.1214/aos/1176348385 .
- Eguchi, Shinto (1985). „Różniczkowe podejście geometryczne do wnioskowania statystycznego na podstawie funkcjonałów kontrastu” . Dziennik matematyczny z Hiroszimy . 15 (2): 341–391. doi : 10.32917/hmj/1206130775 .
- Eguchi, Shinto (1992). „Geometria minimalnego kontrastu” . Dziennik matematyczny z Hiroszimy . 22 (3): 631–647. doi : 10.32917/hmj/1206128508 .
- Ali SM; Silvey, SD (1966). „Ogólna klasa współczynników rozbieżności jednego rozkładu od drugiego”. Dziennik Królewskiego Towarzystwa Statystycznego . Seria B (metodologiczna) . 28 (1): 131–142. ISSN 0035-9246 . JSTOR 2984279 .
- Jeffreys, Harold (1948). Teoria prawdopodobieństwa (wyd. Drugie). Oxford University Press.
- Kullback, S .; Leiblera, RA (1951). „O informacji i wystarczalności” . Roczniki statystyki matematycznej . 22 (1): 79–86. doi : 10.1214/aoms/1177729694 . JSTOR 2236703 . MR 0039968 .
- Kullback, S. (1959), Teoria informacji i statystyka , John Wiley & Sons . Opublikowane ponownie przez Dover Publications w 1968 roku; przedrukowany w 1978: ISBN 0-8446-5625-9
- Matumoto, Takao (1993). „Każda rozmaitość statystyczna ma funkcję kontrastu - na funkcjach C³ przyjmujących minimum na przekątnej rozmaitości iloczynu” . Dziennik matematyczny z Hiroszimy . 23 (2): 327–332. doi : 10.32917/hmj/1206128255 .