Dystans energetyczny
Dystans energetyczny to statystyczna odległość między rozkładami prawdopodobieństwa . Jeśli X i Y są niezależnymi wektorami losowymi w R d z skumulowanymi funkcjami dystrybucji (cdf) odpowiednio F i G, to odległość energii między rozkładami F i G jest zdefiniowana jako pierwiastek kwadratowy z
gdzie (X, X ', Y, Y') są niezależne, cdf X i X' to F, cdf Y i Y' to sol, jest wartością oczekiwaną , i || . || oznacza długość wektora. Odległość energetyczna spełnia wszystkie aksjomaty metryki, stąd odległość energetyczna charakteryzuje równość rozkładów: D(F,G) = 0 wtedy i tylko wtedy, gdy F = G. Odległość energetyczna do zastosowań statystycznych została wprowadzona w 1985 roku przez Gábora J. Székely'ego , który udowodnił, że że dla zmiennych losowych o wartościach rzeczywistych jest dokładnie dwa razy większa od odległości Haralda Craméra :
Aby uzyskać prosty dowód tej równoważności, patrz Székely (2002).
Jednak w wyższych wymiarach te dwie odległości są różne, ponieważ odległość energii jest niezmienna rotacyjnie, podczas gdy odległość Craméra nie. (Zauważ, że odległość Craméra nie jest tym samym, co kryterium Craméra-von Misesa bez rozkładu ).
Uogólnienie na przestrzenie metryczne
Pojęcie odległości energetycznej można uogólnić na rozkłady prawdopodobieństwa w przestrzeniach metrycznych. Niech będzie przestrzenią metryczną z jej algebrą borelowską sigma . Niech oznacza zbiór wszystkich miar prawdopodobieństwa w mierzalnej przestrzeni . Jeśli μ i ν są miarami prawdopodobieństwa w energii μ i ν można zdefiniować jako pierwiastek kwadratowy z
Niekoniecznie jest to jednak nieujemne. Jeśli silnie ujemnie , . wyraża się stwierdzeniem, ujemny nie jest wystarczający, aby był metryką wyraża się stwierdzeniem, silny W tej sytuacji odległość energii wynosi zero wtedy i tylko wtedy, gdy X i Y mają identyczny rozkład. Przykładem metryki typu ujemnego, ale nie silnie ujemnego, jest płaszczyzna z metryką taksówki . Wszystkie przestrzenie euklidesowe, a nawet rozdzielne przestrzenie Hilberta, mają typ silnie ujemny.
W literaturze dotyczącej metod jądra uczenia maszynowego te uogólnione pojęcia odległości energetycznej są badane pod nazwą maksymalnej średniej rozbieżności. Równoważność metod opartych na odległości i jądra do testowania hipotez jest omówiona przez kilku autorów.
Statystyka energii
Pokrewne pojęcie statystyczne, pojęcie statystyki E lub statystyki energii, zostało wprowadzone przez Gábora J. Székely'ego w latach 80. XX wieku, kiedy prowadził wykłady kolokwium w Budapeszcie na Węgrzech oraz w MIT, Yale i Columbia. Koncepcja ta opiera się na pojęciu energii potencjalnej Newtona . Chodzi o to, aby uznać obserwacje statystyczne za ciała niebieskie rządzone przez statystyczną energię potencjalną , która wynosi zero tylko wtedy, gdy podstawowa statystyczna hipoteza zerowa jest prawdziwa. Statystyki energetyczne są funkcjami odległości między obserwacjami statystycznymi.
Dystans energetyczny i E-statystykę uznano za N -odległości i N-statystykę w Zinger AA, Kakosyan AV, Klebanov LB Charakterystyka rozkładów za pomocą wartości średnich niektórych statystyk w powiązaniu z niektórymi metrykami prawdopodobieństwa, Stability Problems for Stochastic Models. Moskwa, VNIISI, 1989, 47-55. (w języku rosyjskim), tłumaczenie angielskie: Charakterystyka rozkładów według średnich wartości statystyk i niektórych metryk probabilistycznych AA Zinger, AV Kakosyan, LB Klebanov w Journal of Soviet Mathematics (1992). W tej samej pracy podano definicję silnie ujemnie określonego jądra oraz podano uogólnienie na przestrzenie metryczne, omówione powyżej. Książka podaje te wyniki i ich zastosowania również w testach statystycznych. Książka zawiera również kilka wniosków o odzyskanie miernika z jego potencjału.
Testowanie równych rozkładów
Rozważmy hipotezę zerową, że dwie zmienne losowe X i Y mają takie same rozkłady prawdopodobieństwa: . Dla próbek statystycznych z X i Y :
- i ,
obliczane są następujące średnie arytmetyczne odległości między próbkami X i Y:
- .
Statystyka E podstawowej hipotezy zerowej jest zdefiniowana w następujący sposób:
Można udowodnić, że i że odpowiednia wartość populacji wynosi zero wtedy i tylko wtedy, gdy X i Y mają takie same dystrybucja ( ). Przy tej hipotezie zerowej statystyka testowa
zbiega się w rozkładzie do postaci kwadratowej niezależnych standardowych normalnych zmiennych losowych . Zgodnie z hipotezą alternatywną T dąży do nieskończoności. Umożliwia to skonstruowanie spójnego testu statystycznego , testu energetycznego dla równych rozkładów.
Można również wprowadzić współczynnik E niejednorodności. Jest to zawsze między 0 a 1 i jest zdefiniowane jako
gdzie oczekiwaną wartość . H = 0 dokładnie wtedy, gdy X i Y mają ten sam rozkład.
Dobroć dopasowania
Wielowymiarowa miara dobroci dopasowania jest zdefiniowana dla rozkładów w dowolnym wymiarze (nieograniczonym wielkością próby). Statystyka dobroci dopasowania energetycznego jest
gdzie X i X 'są niezależne i identycznie rozmieszczone zgodnie z hipotetycznym rozkładem i . Jedynym wymaganym warunkiem jest to, że X ma skończony przy hipotezie zerowej Zgodnie z hipotezą zerową i asymptotyczny rozkład Q n jest kwadratową postacią wyśrodkowanych zmiennych losowych Gaussa. Zgodnie z alternatywną hipotezą, Q n dąży stochastycznie do nieskończoności, a zatem określa statystycznie spójny test. W większości zastosowań można zastosować wykładnik 1 (odległość euklidesowa). Ważny specjalny przypadek testowania wielowymiarowej normalności jest zaimplementowany w pakiecie energetycznym dla R. Testy są również opracowywane dla rozkładów z ciężkimi ogonami, takich jak Pareto ( prawo potęgowe ) lub stabilnych rozkładów przez zastosowanie wykładników w (0,1).
Aplikacje
Zastosowania obejmują:
- Grupowanie hierarchiczne (uogólnienie metody Warda)
- Testowanie wielowymiarowej normalności
- Testowanie wielopróbkowej hipotezy równych rozkładów,
- Wykrywanie punktu zmiany
- Niezależność wielowymiarowa:
- Zasady punktacji :
- Gneiting i Raftery stosują dystans energetyczny, aby opracować nowy i bardzo ogólny rodzaj właściwej reguły punktacji dla prognoz probabilistycznych, wynik energetyczny.
- Solidne statystyki
- Redukcja scenariusza
- Selekcja genów
- Analiza danych z mikromacierzy
- Analiza struktury materiału
- Dane morfometryczne i chemometryczne
Zastosowania statystyki energetycznej są zaimplementowane w pakiecie energetycznym open source dla R .