Rozkład chi-kwadrat

chi-kwadrat
Funkcja gęstości prawdopodobieństwa
Chi-square pdf.svg
Funkcja dystrybucji skumulowanej
Chi-square cdf.svg
Notacja lub
Parametry (znany jako „stopnie swobody”)
Wsparcie jeśli , inaczej
PDF
CDF
Mieć na myśli
Mediana
Tryb
Zmienność
Skośność
Były. kurtoza
Entropia
MGF
CF
PGF

W teorii prawdopodobieństwa stopniami statystyce rozkład chi -kwadrat chi -kwadrat -dystrybucja z swobody jest rozkładem sumy kwadraty standardowych normalnych zmiennych . Rozkład chi-kwadrat jest szczególnym przypadkiem rozkładu gamma i jednym z najczęściej używanych rozkładów prawdopodobieństwa w statystyce wnioskowania , zwłaszcza w testowaniu hipotez i konstruowaniu przedziałów ufności . Ten rozkład jest czasami nazywany centralnym rozkładem chi-kwadrat , szczególnym przypadkiem bardziej ogólnego niecentralnego rozkładu chi-kwadrat .

Rozkład chi-kwadrat jest stosowany w powszechnych testach chi-kwadrat dla dopasowania obserwowanego rozkładu do teoretycznego, niezależności dwóch kryteriów klasyfikacji danych jakościowych oraz w estymacji przedziału ufności dla odchylenia standardowego populacji a rozkład normalny z odchylenia standardowego próbki. Wiele innych testów statystycznych również wykorzystuje ten rozkład, na przykład analiza wariancji według rang Friedmana .

Definicje

Jeżeli Z 1 , ..., Z k niezależnymi , standardowymi normalnymi zmiennymi losowymi, to suma ich kwadratów,

ma rozkład chi-kwadrat z k stopniami swobody. Jest to zwykle oznaczane jako

Rozkład chi-kwadrat ma jeden parametr: dodatnią liczbę całkowitą k , która określa liczbę stopni swobody (liczba sumowanych zmiennych losowych, Z i s).

Wstęp

Rozkład chi-kwadrat jest używany głównie do testowania hipotez iw mniejszym stopniu do przedziałów ufności dla wariancji populacji, gdy podstawowy rozkład jest normalny. W przeciwieństwie do szerzej znanych rozkładów, takich jak rozkład normalny i rozkład wykładniczy , rozkład chi-kwadrat nie jest tak często stosowany w bezpośrednim modelowaniu zjawisk naturalnych. Powstaje ona w następujących testach hipotez, między innymi:

Jest również składnikiem definicji rozkładu t i rozkładu F stosowanego w testach t , ​​analizie wariancji i analizie regresji.

Głównym powodem, dla którego rozkład chi-kwadrat jest szeroko stosowany w testowaniu hipotez, jest jego związek z rozkładem normalnym. Wiele testów hipotez używa statystyki testowej, takiej jak statystyka t w teście t . W przypadku tych testów hipotez, wraz ze wzrostem wielkości próby, n , rozkład próbkowania statystyki testowej zbliża się do rozkładu normalnego ( centralne twierdzenie graniczne ). Ponieważ statystyka testowa (taka jak t ) ma asymptotyczny rozkład normalny, pod warunkiem, że wielkość próby jest wystarczająco duża, rozkład używany do testowania hipotez można przybliżyć rozkładem normalnym. Testowanie hipotez przy użyciu rozkładu normalnego jest dobrze znane i stosunkowo łatwe. Najprostszym rozkładem chi-kwadrat jest kwadrat standardowego rozkładu normalnego. Tak więc wszędzie tam, gdzie można użyć rozkładu normalnego do sprawdzenia hipotezy, można zastosować rozkład chi-kwadrat.

Załóżmy, że zmienną losową próbkowaną ze standardowego rozkładu normalnego, gdzie średnia wynosi wariancja wynosi : . Rozważmy teraz zmienną losową . Rozkład zmiennej losowej przykładem rozkładu chi-kwadrat: . Indeks dolny 1 wskazuje, że ten konkretny rozkład chi-kwadrat jest zbudowany tylko z 1 standardowego rozkładu normalnego. Mówi się, że rozkład chi-kwadrat skonstruowany przez podniesienie do kwadratu pojedynczego standardowego rozkładu normalnego ma 1 stopień swobody. Zatem wraz ze wzrostem wielkości próby dla testu hipotezy rozkład statystyki testowej zbliża się do rozkładu normalnego. Tak jak ekstremalne wartości rozkładu normalnego mają niskie prawdopodobieństwo (i dają małe wartości p), tak ekstremalne wartości rozkładu chi-kwadrat mają niskie prawdopodobieństwo.

Dodatkowym powodem, dla którego rozkład chi-kwadrat jest szeroko stosowany, jest to, że pojawia się jako rozkład dużej próby w testach uogólnionego ilorazu wiarygodności (LRT). LRT mają kilka pożądanych właściwości; w szczególności proste LRT zwykle zapewniają najwyższą moc do odrzucenia hipotezy zerowej ( lemat Neymana – Pearsona ), co prowadzi również do właściwości optymalności uogólnionych LRT. Jednak przybliżenia normalne i chi-kwadrat są ważne tylko asymptotycznie. Z tego powodu dla małej liczebności próby lepiej jest używać t zamiast przybliżenia normalnego lub zbliżenia chi-kwadrat. Podobnie w analizach tablic kontyngencji przybliżenie chi-kwadrat będzie słabe dla małej wielkości próby i lepiej jest użyć dokładnego testu Fishera . Ramsey pokazuje, że dokładny test dwumianowy jest zawsze potężniejszy niż normalne przybliżenie.

Lancaster pokazuje powiązania między rozkładami dwumianowymi, normalnymi i chi-kwadrat w następujący sposób. De Moivre i Laplace ustalili, że rozkład dwumianowy można przybliżyć rozkładem normalnym. W szczególności pokazali asymptotyczną normalność zmiennej losowej

gdzie obserwowana liczba sukcesów w , gdzie prawdopodobieństwo sukcesu wynosi i .

Podniesienie do kwadratu obu stron równania daje

N , i to równanie można przepisać jako

Wyrażenie po prawej stronie ma formę, którą Karl Pearson uogólniłby na formę

Gdzie

= skumulowana statystyka testowa Pearsona, która asymptotycznie zbliża do = liczba obserwacji typu ; = oczekiwana (teoretyczna) częstotliwość typu potwierdzona przez hipotezę zerową, że ułamek typu w populacji jest ; i = liczba komórek w

W przypadku wyniku dwumianowego (rzut monetą) rozkład dwumianowy można przybliżyć rozkładem normalnym (dla wystarczająco . Ponieważ kwadrat standardowego rozkładu normalnego jest rozkładem chi-kwadrat z jednym stopniem swobody, prawdopodobieństwo wyniku takiego jak 1 orzeł w 10 próbach można przybliżyć, używając bezpośrednio rozkładu normalnego lub rozkładu chi-kwadrat dla znormalizowana, podniesiona do kwadratu różnica między wartością obserwowaną a oczekiwaną. Jednak wiele problemów obejmuje więcej niż dwa możliwe wyniki dwumianu i zamiast tego wymaga 3 lub więcej kategorii, co prowadzi do rozkładu wielomianowego. Tak jak de Moivre i Laplace szukali i znaleźli normalne przybliżenie do dwumianu, Pearson szukał i znalazł zdegenerowane wielowymiarowe przybliżenie normalne do rozkładu wielomianowego (liczby w każdej kategorii sumują się do całkowitej wielkości próby, która jest uważana za ustaloną) . Pearson wykazał, że rozkład chi-kwadrat powstał z takiego wielowymiarowego przybliżenia normalnego do rozkładu wielomianowego, biorąc pod uwagę zależność statystyczną (korelacje ujemne) między liczbą obserwacji w różnych kategoriach.

Funkcja gęstości prawdopodobieństwa

Funkcja gęstości prawdopodobieństwa (pdf) rozkładu chi-kwadrat to

gdzie oznacza funkcję gamma , która ma wartości w postaci zamkniętej dla liczby całkowitej .

Aby zapoznać się z wyprowadzeniami pdf w przypadku jednego, dwóch i , zobacz Dowody związane z rozkładem chi-kwadrat .

Dystrybuanta

Wiązanie Chernoffa dla CDF i ogona (1-CDF) zmiennej losowej chi-kwadrat z dziesięcioma stopniami swobody ( )

Jego skumulowana funkcja dystrybucji to:

gdzie jest niekompletną i _ _ _

W szczególnym przypadku ta funkcja ma prostą postać:

fa bezpośrednio. Całkowity nawrót ułatwia obliczenie dla innych małych, nawet

Tabele skumulowanej funkcji rozkładu chi-kwadrat są powszechnie dostępne, a funkcja ta jest zawarta w wielu arkuszach kalkulacyjnych i we wszystkich pakietach statystycznych .

Pozwalając , można uzyskać granice Chernoffa Dla przypadków, gdy obejmują wszystkie przypadki, gdy ten CDF jest mniejszy niż

Ogon związany dla przypadków, gdy podobnie jest

Aby uzyskać inne przybliżenie dla CDF modelowanego na podstawie sześcianu Gaussa, zobacz Niecentralny rozkład chi-kwadrat .

Nieruchomości

Twierdzenie Cochrana

Jeśli Z 1 , ..., Z k niezależnymi identycznie rozłożonymi (iid), standardowymi normalnymi zmiennymi losowymi, to gdzie


Addytywność

Z definicji rozkładu chi-kwadrat wynika, że ​​suma niezależnych zmiennych chi-kwadrat również ma rozkład chi-kwadrat. W szczególności, jeśli niezależnymi zmiennymi chi kwadrat z odpowiednio stopni swobody, a następnie ma rozkład chi-kwadrat z stopni swobody.

Próbka średnia

Średnia próbki ze chi stopnia jest rozłożona zgodnie z rozkładem gamma z parametrami i skali

Asymptotycznie , biorąc pod uwagę, że dla parametru skali do nieskończoności rozkład gamma zbiega się w kierunku rozkładu normalnego z oczekiwaniem i wariancją , średnia próbki zbiega się w kierunku:

Zauważ, że uzyskalibyśmy ten sam wynik, odwołując się zamiast tego do centralnego twierdzenia granicznego , zauważając, że dla każdej zmiennej chi-kwadrat stopnia oczekiwanie wynosi , a jego wariancja jest (a zatem wariancja średniej próbki σ ).

Entropia

Entropia różniczkowa jest dana przez

gdzie jest funkcją Digamma .

Rozkład chi-kwadrat to rozkład maksymalnej entropii dla zmiennej losowej dla której i naprawione. Ponieważ chi-kwadrat należy do rodziny rozkładów gamma, można to wyprowadzić, podstawiając odpowiednie wartości w oczekiwaniu logarytmicznego momentu gamma . Aby uzyskać informacje na temat wyprowadzenia z bardziej podstawowych zasad, zobacz wyprowadzenie w funkcji generującej moment statystyki wystarczającej .

Niecentralne momenty

Momenty około zera rozkładu chi-kwadrat ze stopniami swobody są podane przez

kumulanty

Kumulanty można łatwo uzyskać przez (formalne) rozwinięcie szeregów potęgowych logarytmu funkcji charakterystycznej:

Stężenie

Rozkład chi-kwadrat wykazuje silną koncentrację wokół swojej średniej. Standardowe granice Laurenta-Massarta to:

Właściwości asymptotyczne

Przybliżony wzór na medianę (z transformacji Wilsona-Hilferty'ego) w porównaniu z kwantylem liczbowym (u góry); oraz różnica (niebieski) i względna różnica (czerwony) między kwantylem liczbowym a przybliżonym wzorem (na dole). Dla rozkładu chi-kwadrat znaczenie mają tylko dodatnie liczby całkowite stopni swobody (okręgi).

Zgodnie z centralnym twierdzeniem granicznym , ponieważ rozkład kwadrat jest sumą niezależnych zmiennych o skończonej średniej i wariancji, zbiega się do rozkładu normalnego dla Z wielu praktycznych powodów rozkład jest wystarczająco bliski normalnemu można zignorować jeśli , to k , rozkład dąży do standardowego rozkładu normalnego. Jednak konwergencja jest powolna, ponieważ skośność wynosi 8 , a nadmierna kurtoza wynosi .

ln normalności znacznie szybciej rozkład próbkowania Displaystyle transform usuwa większość asymetrii.

Inne funkcje rozkładu chi-kwadrat zbiegają się szybciej do rozkładu normalnego. Niektóre przykłady to:

  • Jeśli to ma rozkład normalny ze średnią i wariancja jednostek (1922, RA Fisher , patrz (18.23), s. 426, Johnson.
  • X to przybliżeniu normalne ze i Jest to znane jako transformacja Wilsona-Hilferty'ego , patrz (18.24), s. 426 Johnsona.
    • Ta transformacja normalizująca prowadzi bezpośrednio do powszechnie używanego przybliżenia mediany przez transformację wsteczną ze średniej, która jest jednocześnie medianą rozkładu normalnego.

Powiązane dystrybucje

  • k , ( rozkład normalny )
  • ( niecentralny rozkład chi-kwadrat z nie -centralność parametr )
  • } to ma rozkład chi-kwadrat
  • W szczególnym przypadku, jeśli to ma rozkład chi-kwadrat
  • Norma kwadratowa k standardowych zmiennych o rozkładzie normalnym to rozkład chi-kwadrat z k stopniami swobody )
  • Jeśli i to . ( rozkład gamma )
  • X to ( dystrybucja chi )
  • Jeśli , to jest rozkładem wykładniczym . (Zobacz rozkład gamma, aby uzyskać więcej informacji).
  • Jeśli , to jest rozkładem Erlanga .
  • , to
  • Jeśli ( dystrybucja Rayleigha ) to
  • Jeśli ( Rozkład Maxwella ), to
  • X to ( rozkład odwrotny-chi-kwadrat )
  • Rozkład chi-kwadrat jest szczególnym przypadkiem rozkładu Pearsona typu III
  • X i są wtedy niezależne ( dystrybucja beta )
  • ( rozkład równomierny ) to
  • Jeśli to
  • Jeśli zgodny z ( 1 to
  • rozkład chi-kwadrat jest transformacją rozkładu Pareto
  • Rozkład t-Studenta jest transformacją rozkładu chi-kwadrat
  • Rozkład t-Studenta można otrzymać z rozkładu chi-kwadrat i rozkładu normalnego
  • Niecentralny rozkład beta można otrzymać jako transformację rozkładu chi-kwadrat i niecentralnego rozkładu chi-kwadrat
  • Niecentralny rozkład t można otrzymać z rozkładu normalnego i rozkładu chi-kwadrat

kwadrat ze stopniami definiowana jako suma kwadratów niezależnych standardowych normalnych zmiennych losowych.

Jeśli jest to -wymiarowy wektor Gaussa z wektorem macierz kowariancji , jest rozkładem chi-kwadrat z stopnie swobody.

Suma kwadratów statystycznie niezależnych zmiennych Gaussa o wariancji jednostkowej, które nie mają średniej zerowej, daje uogólnienie rozkładu chi-kwadrat, zwane niecentralnym rozkładem chi-kwadrat .

Jeśli jest wektorem standardowych i jest symetryczną , idempotentną macierzą o randze forma ma rozkład chi-kwadrat swobody

Jeśli jest macierzą kowariancji ze ściśle dodatnimi przekątnymi wpisami, to dla i wektor niezależny od taki, że i ,

Rozkład chi-kwadrat jest również naturalnie powiązany z innymi rozkładami wynikającymi z rozkładu Gaussa. W szczególności,

  • ma rozkład F , jeśli gdzie i są statystycznie niezależne.
  • i X są statystycznie niezależne, to . Jeśli i nie są niezależne, to -kwadrat Rozpowszechniane.

Uogólnienia

Rozkład chi-kwadrat otrzymuje się jako sumę kwadratów k niezależnych zmiennych losowych Gaussa o zerowej średniej i jednostkowej wariancji. Uogólnienia tego rozkładu można uzyskać, sumując kwadraty innych typów zmiennych losowych Gaussa. Poniżej opisano kilka takich dystrybucji.

Kombinacja liniowa

ldots są zmiennymi losowymi chi kwadrat i , a następnie zamknięte wyrażenie dla rozkładu nie jest znany. Można go jednak skutecznie aproksymować za pomocą własności funkcji charakterystycznych zmiennych losowych chi-kwadrat.

Rozkłady chi-kwadrat

Niecentralny rozkład chi-kwadrat

Niecentralny rozkład chi-kwadrat otrzymuje się z sumy kwadratów niezależnych zmiennych losowych Gaussa o jednostkowej wariancji i niezerowych średnich.

Uogólniony rozkład chi-kwadrat

Uogólniony rozkład chi-kwadrat otrzymuje się z postaci kwadratowej z'Az , gdzie z jest zerowym wektorem Gaussa mającym dowolną macierz kowariancji, a A jest dowolną macierzą.

Rozkłady gamma, wykładniczy i pokrewne

Rozkład chi- przypadkiem gamma ponieważ używając parametryzacji szybkości rozkładu gamma (lub gdzie k .

Ponieważ wykładniczy również szczególnym przypadkiem rozkładu gamma, mamy również to to jest rozkładem wykładniczym

Rozkład Erlanga jest również szczególnym przypadkiem rozkładu gamma, a zatem mamy również to, że jeśli nawet z , to jest rozkład Erlanga z parametrem kształtu i parametrem skali .

Występowanie i zastosowania

Rozkład chi-kwadrat ma wiele zastosowań w statystyce wnioskowania , na przykład w testach chi-kwadrat i szacowaniu wariancji . Wchodzi w problem szacowania średniej populacji o rozkładzie normalnym oraz problem szacowania nachylenia linii regresji poprzez jej rolę w rozkładzie t-Studenta . Wchodzi do wszystkich analiz problemów wariancji poprzez swoją rolę w rozkładzie F , który jest rozkładem stosunku dwóch niezależnych zmiennych losowych chi-kwadrat , z których każda jest podzielona przez odpowiednie stopnie swobody.

Poniżej przedstawiono niektóre z najczęstszych sytuacji, w których rozkład chi-kwadrat wynika z próbki o rozkładzie Gaussa.

  • jeśli iid zmiennymi losowymi , a następnie gdzie .
  • W ramce poniżej przedstawiono niektóre statystyki oparte na niezależne zmienne losowe, które mają rozkłady prawdopodobieństwa związane z rozkładem chi-kwadrat:
Nazwa Statystyczny
rozkład chi-kwadrat
niecentralny rozkład chi-kwadrat
dystrybucja chi
niecentralna dystrybucja chi

Rozkład chi-kwadrat jest również często spotykany w obrazowaniu metodą rezonansu magnetycznego .

Metody obliczeniowe

Tabela wartości χ 2 vs wartości p

Wartość p . jest prawdopodobieństwem zaobserwowania statystyki testowej co najmniej tak skrajnej w rozkładzie chi-kwadrat Odpowiednio, ponieważ skumulowana funkcja dystrybucji (CDF) dla odpowiednich stopni swobody (df) daje prawdopodobieństwo uzyskania wartości mniej ekstremalnej niż ten punkt, odjęcie wartości CDF od 1 daje wartość p . Niska p , poniżej wybranego poziomu istotności, wskazuje na istotność statystyczną , tj. wystarczający dowód do odrzucenia hipotezy zerowej. Poziom istotności 0,05 jest często używany jako granica między istotnymi i nieistotnymi wynikami.

tabela podaje liczbę p -wartości pasujących do pierwszych 10 stopni

Stopnie swobody (df) wartość
1 0,004 0,02 0,06 0,15 0,46 1.07 1,64 2.71 3,84 6.63 10.83
2 0,10 0,21 0,45 0,71 1.39 2.41 3.22 4.61 5,99 9.21 13.82
3 0,35 0,58 1.01 1.42 2.37 3,66 4.64 6.25 7.81 11.34 16.27
4 0,71 1.06 1,65 2.20 3.36 4,88 5,99 7,78 9.49 13.28 18.47
5 1.14 1.61 2.34 3.00 4.35 6.06 7.29 9.24 11.07 15.09 20.52
6 1,63 2.20 3.07 3,83 5.35 7.23 8.56 10.64 12.59 16.81 22.46
7 2.17 2.83 3,82 4,67 6.35 8.38 9.80 12.02 14.07 18.48 24.32
8 2.73 3.49 4,59 5.53 7.34 9.52 11.03 13.36 15.51 20.09 26.12
9 3.32 4.17 5.38 6.39 8.34 10.66 12.24 14.68 16.92 21.67 27.88
10 3,94 4,87 6.18 7.27 9.34 11.78 13.44 15,99 18.31 23.21 29,59
p (prawdopodobieństwo) 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Wartości te można obliczyć, oceniając funkcję kwantylową (znaną również jako „odwrotny CDF” lub „ICDF”) rozkładu chi-kwadrat; np. χ 2 ICDF dla p = 0,05 i df = 7 daje 2,1673 ≈ 2,17 jak w powyższej tabeli, zauważając, że 1 – p jest wartością p z tabeli.

Historia

Rozkład ten został po raz pierwszy opisany przez niemieckiego geodetę i statystyka Friedricha Roberta Helmerta w artykułach z lat 1875–186, w których obliczył rozkład próbkowania wariancji próbki normalnej populacji. Tak więc w języku niemieckim było to tradycyjnie znane jako Helmert'sche („Helmertian”) lub „dystrybucja Helmerta”.

Rozkład został niezależnie ponownie odkryty przez angielskiego matematyka Karla Pearsona w kontekście dobroci dopasowania , dla którego opracował swój test chi-kwadrat Pearsona , opublikowany w 1900 r., z obliczoną tabelą wartości opublikowaną w ( Elderton 1902 ), zebraną w ( Pearson 1914 , s. XXXI-XXXIII, 26-28, Tablica XII). Nazwa „chi-kwadrat” ostatecznie wywodzi się ze skrótu Pearsona dla wykładnika w wielowymiarowym rozkładzie normalnym z grecką literą Chi , zapisując −½χ 2 dla tego, co we współczesnej notacji wyglądałoby jako −½ x T Σ −1 x (Σ jest macierz kowariancji ). Pomysł rodziny „rozkładów chi-kwadrat” nie pochodzi jednak od Pearsona, ale powstał jako dalszy rozwój dzięki Fisherowi w latach dwudziestych XX wieku.

Zobacz też

Dalsza lektura

Linki zewnętrzne