Dystans energetyczny

Dystans energetyczny to statystyczna odległość między rozkładami prawdopodobieństwa . Jeśli X i Y są niezależnymi wektorami losowymi w R ^d z skumulowanymi funkcjami dystrybucji (cdf) odpowiednio F i G, to odległość energii między rozkładami F i G jest zdefiniowana jako pierwiastek kwadratowy z

{\ Displaystyle D ^ {2} (F, G) = 2\nazwa_operatora {E} \|XY\|-\nazwa_operatora {E} \|XX'\|-\nazwa_operatora {E} \|YY'\|\geq 0,}

gdzie (X, X ', Y, Y') są niezależne, cdf X i X' to F, cdf Y i Y' to sol, ${\ displaystyle \ operatorname {E}}$ jest wartością oczekiwaną , i || . || oznacza długość wektora. Odległość energetyczna spełnia wszystkie aksjomaty metryki, stąd odległość energetyczna charakteryzuje równość rozkładów: D(F,G) = 0 wtedy i tylko wtedy, gdy F = G. Odległość energetyczna do zastosowań statystycznych została wprowadzona w 1985 roku przez Gábora J. Székely'ego , który udowodnił, że że dla zmiennych losowych o wartościach rzeczywistych jest dokładnie dwa razy większa od odległości Haralda Craméra : ${\ Displaystyle D ^ {2} (F, G)}$

{\ Displaystyle \ int _ {- \ infty} ^ {\ infty} (F (x) -G (x)) ^ {2} \, dx.}

Aby uzyskać prosty dowód tej równoważności, patrz Székely (2002).

Jednak w wyższych wymiarach te dwie odległości są różne, ponieważ odległość energii jest niezmienna rotacyjnie, podczas gdy odległość Craméra nie. (Zauważ, że odległość Craméra nie jest tym samym, co kryterium Craméra-von Misesa bez rozkładu ).

Uogólnienie na przestrzenie metryczne

Pojęcie odległości energetycznej można uogólnić na rozkłady prawdopodobieństwa w przestrzeniach metrycznych. Niech ${\ Displaystyle (M, d)}$ będzie przestrzenią metryczną z jej algebrą borelowską sigma ${\ Displaystyle {\ mathcal {B}} (M)}$ . Niech ${\ Displaystyle {\ mathcal {P}} (M)}$ oznacza zbiór wszystkich miar prawdopodobieństwa w mierzalnej przestrzeni ${\ Displaystyle (M, {\ mathcal {B} }(M))}$ . Jeśli μ i ν są miarami prawdopodobieństwa w $P}} (M)}$ energii μ i ν można zdefiniować jako pierwiastek kwadratowy z $\ Displaystyle {\ mathcal {$

{\ Displaystyle D ^ {2} (\ mu, \ nu) = 2 \ nazwa operatora {E} [d (X, Y)] - \ nazwa operatora {E} [d (X, X ')] - \ nazwa operatora {E } [d(T,Y')].}

Niekoniecznie jest to jednak nieujemne. Jeśli $jest$ silnie ujemnie $jądrem$ , . $Warunek$ wyraża się stwierdzeniem, ujemny $; ten ostatni$ nie jest wystarczający, aby był metryką $warunek$ wyraża się stwierdzeniem, silny W tej sytuacji odległość energii wynosi zero wtedy i tylko wtedy, gdy X i Y mają identyczny rozkład. Przykładem metryki typu ujemnego, ale nie silnie ujemnego, jest płaszczyzna z metryką taksówki . Wszystkie przestrzenie euklidesowe, a nawet rozdzielne przestrzenie Hilberta, mają typ silnie ujemny.

W literaturze dotyczącej metod jądra uczenia maszynowego te uogólnione pojęcia odległości energetycznej są badane pod nazwą maksymalnej średniej rozbieżności. Równoważność metod opartych na odległości i jądra do testowania hipotez jest omówiona przez kilku autorów.

Statystyka energii

Pokrewne pojęcie statystyczne, pojęcie statystyki E lub statystyki energii, zostało wprowadzone przez Gábora J. Székely'ego w latach 80. XX wieku, kiedy prowadził wykłady kolokwium w Budapeszcie na Węgrzech oraz w MIT, Yale i Columbia. Koncepcja ta opiera się na pojęciu energii potencjalnej Newtona . Chodzi o to, aby uznać obserwacje statystyczne za ciała niebieskie rządzone przez statystyczną energię potencjalną , która wynosi zero tylko wtedy, gdy podstawowa statystyczna hipoteza zerowa jest prawdziwa. Statystyki energetyczne są funkcjami odległości między obserwacjami statystycznymi.

Dystans energetyczny i E-statystykę uznano za N -odległości i N-statystykę w Zinger AA, Kakosyan AV, Klebanov LB Charakterystyka rozkładów za pomocą wartości średnich niektórych statystyk w powiązaniu z niektórymi metrykami prawdopodobieństwa, Stability Problems for Stochastic Models. Moskwa, VNIISI, 1989, 47-55. (w języku rosyjskim), tłumaczenie angielskie: Charakterystyka rozkładów według średnich wartości statystyk i niektórych metryk probabilistycznych AA Zinger, AV Kakosyan, LB Klebanov w Journal of Soviet Mathematics (1992). W tej samej pracy podano definicję silnie ujemnie określonego jądra oraz podano uogólnienie na przestrzenie metryczne, omówione powyżej. Książka podaje te wyniki i ich zastosowania również w testach statystycznych. Książka zawiera również kilka wniosków o odzyskanie miernika z jego potencjału.

Testowanie równych rozkładów

Rozważmy hipotezę zerową, że dwie zmienne losowe X i Y mają takie same rozkłady prawdopodobieństwa: ${\ displaystyle \ mu = \ nu}$ . Dla próbek statystycznych z X i Y :

{\ Displaystyle x_ {1}, \ kropki, x_ {n}}

i

{\ Displaystyle y_ {1}, \ kropki, y_ {m}}

,

obliczane są następujące średnie arytmetyczne odległości między próbkami X i Y:

{\ Displaystyle A: = {\ Frac {1} {nm}} \ suma _ {i = 1} ^ {n} \ suma _{j=1}^{m}\|x_{i}-y_{j}\|,B:={\frac {1}{n^{2}}}\suma _{i=1} ^{n}\suma _{j=1}^{n}\|x_{i}-x_{j}\|,C:={\frac {1}{m^{2}}}\suma _ {i=1}^{m}\sum _{j=1}^{m}\|y_{i}-y_{j}\|}

.

Statystyka E podstawowej hipotezy zerowej jest zdefiniowana w następujący sposób:

{\ Displaystyle E_ {n, m} (X, Y): = 2A-BC}

Można udowodnić, że ${\ Displaystyle E_ {n, m} (X, Y) \ geq 0}$ i że odpowiednia wartość populacji wynosi zero wtedy i tylko wtedy, gdy X i Y mają takie same dystrybucja ( ${\ Displaystyle \ mu = \ nu}$ ). Przy tej hipotezie zerowej statystyka testowa

{\ Displaystyle T = {\ Frac {nm} {n + m}} E_ {n, m} (X, Y)}

zbiega się w rozkładzie do postaci kwadratowej niezależnych standardowych normalnych zmiennych losowych . Zgodnie z hipotezą alternatywną T dąży do nieskończoności. Umożliwia to skonstruowanie spójnego testu statystycznego , testu energetycznego dla równych rozkładów.

Można również wprowadzić współczynnik E niejednorodności. Jest to zawsze między 0 a 1 i jest zdefiniowane jako

{\ Displaystyle H = {\ Frac {D ^ {2} (F_ {X}, F_ {Y})} {2 \ nazwa operatora {\ nazwa operatora {E}} \| XY \|}} = {\frac {2\nazwa_operatora {E} \|XY\|-\nazwa_operatora {E} \|XX'\|-\nazwa_operatora {E} \|YY'\|}{2\nazwa_operatora {\nazwa_operatora {E} } \|XY\|}},}

gdzie $_$ oczekiwaną wartość . H = 0 dokładnie wtedy, gdy X i Y mają ten sam rozkład.

Dobroć dopasowania

Wielowymiarowa miara dobroci dopasowania jest zdefiniowana dla rozkładów w dowolnym wymiarze (nieograniczonym wielkością próby). Statystyka dobroci dopasowania energetycznego jest

{\ Displaystyle Q_ {n} = n \ lewo ({\ Frac {2} {n}} \ suma _ {i = 1} ^ {n} \ nazwa operatora {E} \| x_ {i} -X\|^{\alpha }-\nazwaoperatora {E} \|XX'\|^{\alpha }-{\frac {1}{n^{2}}}\sum _{i=1}^ {n}\suma _{j=1}^{n}\|x_{i}-x_{j}\|^{\alpha}\right),}

gdzie X i X 'są niezależne i identycznie rozmieszczone zgodnie z hipotetycznym rozkładem i ${\ displaystyle \ alpha \ in (0,2)}$ . Jedynym wymaganym warunkiem jest to, że X ma skończony $.$ przy hipotezie zerowej Zgodnie z hipotezą zerową ${\ Displaystyle \ nazwa operatora {E} Q_ {n} = \ nazwa operatora {E} \| XX' \ | ^ {\ alfa}}$ i asymptotyczny rozkład Q _n jest kwadratową postacią wyśrodkowanych zmiennych losowych Gaussa. Zgodnie z alternatywną hipotezą, Q _n dąży stochastycznie do nieskończoności, a zatem określa statystycznie spójny test. W większości zastosowań można zastosować wykładnik 1 (odległość euklidesowa). Ważny specjalny przypadek testowania wielowymiarowej normalności jest zaimplementowany w pakiecie energetycznym dla R. Testy są również opracowywane dla rozkładów z ciężkimi ogonami, takich jak Pareto ( prawo potęgowe ) lub stabilnych rozkładów przez zastosowanie wykładników w (0,1).

Aplikacje

Zastosowania obejmują:

Grupowanie hierarchiczne (uogólnienie metody Warda)
Testowanie wielowymiarowej normalności
Testowanie wielopróbkowej hipotezy równych rozkładów,
Wykrywanie punktu zmiany
Niezależność wielowymiarowa:
- korelacja odległości ,
- Kowariancja Browna .
Zasady punktacji :

Gneiting i Raftery stosują dystans energetyczny, aby opracować nowy i bardzo ogólny rodzaj właściwej reguły punktacji dla prognoz probabilistycznych, wynik energetyczny.

Solidne statystyki
Redukcja scenariusza
Selekcja genów
Analiza danych z mikromacierzy
Analiza struktury materiału
Dane morfometryczne i chemometryczne

Zastosowania statystyki energetycznej są zaimplementowane w pakiecie energetycznym open source dla R .