Dystans energetyczny

Dystans energetyczny to statystyczna odległość między rozkładami prawdopodobieństwa . Jeśli X i Y są niezależnymi wektorami losowymi w R d z skumulowanymi funkcjami dystrybucji (cdf) odpowiednio F i G, to odległość energii między rozkładami F i G jest zdefiniowana jako pierwiastek kwadratowy z

gdzie (X, X ', Y, Y') są niezależne, cdf X i X' to F, cdf Y i Y' to sol, jest wartością oczekiwaną , i || . || oznacza długość wektora. Odległość energetyczna spełnia wszystkie aksjomaty metryki, stąd odległość energetyczna charakteryzuje równość rozkładów: D(F,G) = 0 wtedy i tylko wtedy, gdy F = G. Odległość energetyczna do zastosowań statystycznych została wprowadzona w 1985 roku przez Gábora J. Székely'ego , który udowodnił, że że dla zmiennych losowych o wartościach rzeczywistych jest dokładnie dwa razy większa od odległości Haralda Craméra :

Aby uzyskać prosty dowód tej równoważności, patrz Székely (2002).

Jednak w wyższych wymiarach te dwie odległości są różne, ponieważ odległość energii jest niezmienna rotacyjnie, podczas gdy odległość Craméra nie. (Zauważ, że odległość Craméra nie jest tym samym, co kryterium Craméra-von Misesa bez rozkładu ).

Uogólnienie na przestrzenie metryczne

Pojęcie odległości energetycznej można uogólnić na rozkłady prawdopodobieństwa w przestrzeniach metrycznych. Niech będzie przestrzenią metryczną z jej algebrą borelowską sigma . Niech oznacza zbiór wszystkich miar prawdopodobieństwa w mierzalnej przestrzeni . Jeśli μ i ν są miarami prawdopodobieństwa w energii μ i ν można zdefiniować jako pierwiastek kwadratowy z

Niekoniecznie jest to jednak nieujemne. Jeśli silnie ujemnie , . wyraża się stwierdzeniem, ujemny nie jest wystarczający, aby był metryką wyraża się stwierdzeniem, silny W tej sytuacji odległość energii wynosi zero wtedy i tylko wtedy, gdy X i Y mają identyczny rozkład. Przykładem metryki typu ujemnego, ale nie silnie ujemnego, jest płaszczyzna z metryką taksówki . Wszystkie przestrzenie euklidesowe, a nawet rozdzielne przestrzenie Hilberta, mają typ silnie ujemny.

W literaturze dotyczącej metod jądra uczenia maszynowego te uogólnione pojęcia odległości energetycznej są badane pod nazwą maksymalnej średniej rozbieżności. Równoważność metod opartych na odległości i jądra do testowania hipotez jest omówiona przez kilku autorów.

Statystyka energii

Pokrewne pojęcie statystyczne, pojęcie statystyki E lub statystyki energii, zostało wprowadzone przez Gábora J. Székely'ego w latach 80. XX wieku, kiedy prowadził wykłady kolokwium w Budapeszcie na Węgrzech oraz w MIT, Yale i Columbia. Koncepcja ta opiera się na pojęciu energii potencjalnej Newtona . Chodzi o to, aby uznać obserwacje statystyczne za ciała niebieskie rządzone przez statystyczną energię potencjalną , która wynosi zero tylko wtedy, gdy podstawowa statystyczna hipoteza zerowa jest prawdziwa. Statystyki energetyczne są funkcjami odległości między obserwacjami statystycznymi.

Dystans energetyczny i E-statystykę uznano za N -odległości i N-statystykę w Zinger AA, Kakosyan AV, Klebanov LB Charakterystyka rozkładów za pomocą wartości średnich niektórych statystyk w powiązaniu z niektórymi metrykami prawdopodobieństwa, Stability Problems for Stochastic Models. Moskwa, VNIISI, 1989, 47-55. (w języku rosyjskim), tłumaczenie angielskie: Charakterystyka rozkładów według średnich wartości statystyk i niektórych metryk probabilistycznych AA Zinger, AV Kakosyan, LB Klebanov w Journal of Soviet Mathematics (1992). W tej samej pracy podano definicję silnie ujemnie określonego jądra oraz podano uogólnienie na przestrzenie metryczne, omówione powyżej. Książka podaje te wyniki i ich zastosowania również w testach statystycznych. Książka zawiera również kilka wniosków o odzyskanie miernika z jego potencjału.

Testowanie równych rozkładów

Rozważmy hipotezę zerową, że dwie zmienne losowe X i Y mają takie same rozkłady prawdopodobieństwa: . Dla próbek statystycznych z X i Y :

i ,

obliczane są następujące średnie arytmetyczne odległości między próbkami X i Y:

.

Statystyka E podstawowej hipotezy zerowej jest zdefiniowana w następujący sposób:

Można udowodnić, że i że odpowiednia wartość populacji wynosi zero wtedy i tylko wtedy, gdy X i Y mają takie same dystrybucja ( ). Przy tej hipotezie zerowej statystyka testowa

zbiega się w rozkładzie do postaci kwadratowej niezależnych standardowych normalnych zmiennych losowych . Zgodnie z hipotezą alternatywną T dąży do nieskończoności. Umożliwia to skonstruowanie spójnego testu statystycznego , testu energetycznego dla równych rozkładów.

Można również wprowadzić współczynnik E niejednorodności. Jest to zawsze między 0 a 1 i jest zdefiniowane jako

gdzie oczekiwaną wartość . H = 0 dokładnie wtedy, gdy X i Y mają ten sam rozkład.

Dobroć dopasowania

Wielowymiarowa miara dobroci dopasowania jest zdefiniowana dla rozkładów w dowolnym wymiarze (nieograniczonym wielkością próby). Statystyka dobroci dopasowania energetycznego jest

gdzie X i X 'są niezależne i identycznie rozmieszczone zgodnie z hipotetycznym rozkładem i . Jedynym wymaganym warunkiem jest to, że X ma skończony przy hipotezie zerowej Zgodnie z hipotezą zerową i asymptotyczny rozkład Q n jest kwadratową postacią wyśrodkowanych zmiennych losowych Gaussa. Zgodnie z alternatywną hipotezą, Q n dąży stochastycznie do nieskończoności, a zatem określa statystycznie spójny test. W większości zastosowań można zastosować wykładnik 1 (odległość euklidesowa). Ważny specjalny przypadek testowania wielowymiarowej normalności jest zaimplementowany w pakiecie energetycznym dla R. Testy są również opracowywane dla rozkładów z ciężkimi ogonami, takich jak Pareto ( prawo potęgowe ) lub stabilnych rozkładów przez zastosowanie wykładników w (0,1).

Aplikacje

Zastosowania obejmują:

Gneiting i Raftery stosują dystans energetyczny, aby opracować nowy i bardzo ogólny rodzaj właściwej reguły punktacji dla prognoz probabilistycznych, wynik energetyczny.
  • Solidne statystyki
  • Redukcja scenariusza
  • Selekcja genów
  • Analiza danych z mikromacierzy
  • Analiza struktury materiału
  • Dane morfometryczne i chemometryczne

Zastosowania statystyki energetycznej są zaimplementowane w pakiecie energetycznym open source dla R .