Test normalności

W statystyce testy normalności są używane do określenia, czy zbiór danych jest dobrze modelowany przez rozkład normalny i do obliczenia prawdopodobieństwa, że zmienna losowa leżąca u podstaw zbioru danych ma rozkład normalny.

Mówiąc dokładniej, testy są formą wyboru modelu i można je interpretować na kilka sposobów, w zależności od własnej interpretacji prawdopodobieństwa :

W kategoriach statystyki opisowej mierzy się dobroć dopasowania modelu normalnego do danych – jeśli dopasowanie jest słabe, dane nie są dobrze modelowane pod tym względem przez rozkład normalny, bez oceniania jakiejkolwiek zmiennej bazowej.
W testowaniu hipotez statystycznych w statystyce częstości dane są testowane pod kątem hipotezy zerowej , że mają one rozkład normalny.
W statystyce bayesowskiej nie „testuje się normalności” per se, ale raczej oblicza się prawdopodobieństwo, że dane pochodzą z rozkładu normalnego o danych parametrach μ , σ (dla wszystkich μ , σ ) i porównuje to z prawdopodobieństwem, że dane pochodzą z innych rozważanych rozkładów, najprościej używając czynnika Bayesa (podając względne prawdopodobieństwo zobaczenia danych przy różnych modelach) lub dokładniej biorąc wcześniejszy rozkład na możliwych modelach i parametrach i obliczając dystrybucja a posteriori, biorąc pod uwagę obliczone prawdopodobieństwa.

Test normalności służy do określenia, czy dane próbki zostały pobrane z populacji o rozkładzie normalnym (w ramach pewnej tolerancji). Szereg testów statystycznych, takich jak test t-Studenta oraz jednokierunkowa i dwukierunkowa ANOVA, wymaga populacji próby o rozkładzie normalnym.

Metody graficzne

Nieformalne podejście do testowania normalności polega na porównaniu histogramu danych próbki z normalną krzywą prawdopodobieństwa. Empiryczny rozkład danych (histogram) powinien mieć kształt dzwonu i przypominać rozkład normalny. Może to być trudne do sprawdzenia, jeśli próbka jest mała. W takim przypadku można przystąpić do regresji danych względem kwantyli rozkładu normalnego z taką samą średnią i wariancją jak próbka. Brak dopasowania do linii regresji sugeruje odejście od normalności (patrz współczynnik Andersona Darlinga i minitab).

Narzędziem graficznym do oceny normalności jest wykres prawdopodobieństwa normalnego , wykres kwantylowo-kwantylowy (wykres QQ) standaryzowanych danych w stosunku do standardowego rozkładu normalnego . W tym przypadku korelacja między danymi próbki a kwantylami normalnymi (miara dopasowania) mierzy, jak dobrze dane są modelowane przez rozkład normalny. Dla normalnych danych punkty wykreślone na wykresie QQ powinny leżeć w przybliżeniu na linii prostej, co wskazuje na wysoką dodatnią korelację. Wykresy te są łatwe do interpretacji i mają tę zaletę, że można łatwo zidentyfikować wartości odstające.

Test z tyłu koperty

Prosty test z tyłu koperty pobiera maksimum i minimum próbki i oblicza ich z-score , lub dokładniej statystykę t (liczba odchyleń standardowych próbki, o którą próbka jest powyżej lub poniżej średniej próbki) i porównuje ją z reguła 68–95–99,7 : jeśli ktoś ma zdarzenie 3 σ (właściwie zdarzenie 3 s ) i znacznie mniej niż 300 próbek lub 4 s zdarzenie i znacznie mniej niż 15 000 próbek, wówczas rozkład normalny zaniży maksymalną wielkość odchyleń w danych próbki.

Ten test jest przydatny w przypadkach, gdy istnieje ryzyko kurtozy - gdzie duże odchylenia mają znaczenie - i ma tę zaletę, że jest bardzo łatwy do obliczenia i przekazania: nie-statystycy mogą łatwo zrozumieć, że „zdarzenia 6 σ są bardzo rzadkie w rozkładzie normalnym” .

Testy częstotliwościowe

Testy jednowymiarowej normalności obejmują:

test K-kwadrat D'Agostino ,
test Jarque-Bera ,
test Andersona-Darlinga ,
Kryterium Craméra-von Misesa ,
Test Kołmogorowa – Smirnowa (ten działa tylko wtedy, gdy zakłada się, że średnia i wariancja normalnej są znane przy hipotezie zerowej),
test Lillieforsa (oparty na teście Kołmogorowa-Smirnowa, skorygowany o oszacowanie średniej i wariancji z danych),
Test Shapiro-Wilka i
Test chi-kwadrat Pearsona .

Badanie z 2011 roku wykazało, że Shapiro – Wilk ma najlepszą moc dla danego znaczenia, a zaraz za nim Anderson – Darling, porównując testy Shapiro – Wilka, Kołmogorowa – Smirnowa, Lillieforsa i Andersona – Darlinga.

Niektóre opublikowane prace zalecają test Jarque-Bera, ale test ma słabość. W szczególności test ma małą moc dla rozkładów z krótkimi ogonami, zwłaszcza dla rozkładów bimodalnych. Niektórzy autorzy odmówili uwzględnienia jego wyników w swoich badaniach ze względu na jego słabą ogólną wydajność.

Historycznie rzecz biorąc, trzeci i czwarty znormalizowany moment ( skośność i kurtoza ) były jednymi z najwcześniejszych testów normalności. Test Lin-Mudholkara dotyczy w szczególności asymetrycznych alternatyw. Jarque -Bera wywodzi się z oszacowań skośności i kurtozy . Wielowymiarowe testy skośności i kurtozy Mardii uogólniają testy momentu na przypadek wielowymiarowy. Inne statystyki wczesnego testu obejmują stosunek średniego odchylenia bezwzględnego do odchylenia standardowego i zakresu do odchylenia standardowego.

Nowsze testy normalności obejmują test energii (Székely i Rizzo) oraz testy oparte na empirycznej funkcji charakterystycznej (ECF) (np. Epps i Pulley, Henze-Zirkler, test BHEP ). Testy energii i ECF są potężnymi testami, które mają zastosowanie do testowania jednowymiarowej lub wielowymiarowej normalności i są statystycznie spójne z ogólnymi alternatywami.

Rozkład normalny ma najwyższą entropię ze wszystkich rozkładów dla danego odchylenia standardowego. Istnieje wiele testów normalności opartych na tej właściwości, z których pierwszy można przypisać Vasickowi.

Testy bayesowskie

Rozbieżności Kullbacka-Leiblera między całymi tylnymi rozkładami nachylenia i wariancji nie wskazują na nienormalność. Jednak stosunek oczekiwań tych późniejszych i oczekiwanie wskaźników dają podobne wyniki do statystyki Shapiro-Wilka, z wyjątkiem bardzo małych próbek, gdy stosowane są nieinformacyjne a priori.

Spiegelhalter sugeruje użycie czynnika Bayesa do porównania normalności z inną klasą alternatyw dystrybucyjnych. Podejście to zostało rozszerzone przez Farrella i Rogersa-Stewarta.

Aplikacje

Jednym z zastosowań testów normalności są reszty z modelu regresji liniowej . Jeśli nie mają rozkładu normalnego, reszty nie powinny być używane w testach Z ani w żadnych innych testach wyprowadzonych z rozkładu normalnego, takich jak testy t , testy F i testy chi-kwadrat . Jeśli reszty nie mają rozkładu normalnego, wówczas zmienna zależna lub co najmniej jedna zmienna objaśniająca może mieć niewłaściwą postać funkcjonalną lub może brakować ważnych zmiennych itp. Korekta jednego lub więcej z tych błędów systematycznych może generować pozostałości, które mają rozkład normalny; innymi słowy, nienormalność reszt jest często raczej wadą modelu niż problemem z danymi.

Zobacz też

Notatki

Dalsza lektura

Ralph B. D'Agostino (1986). „Testy dla rozkładu normalnego”. W D'Agostino, RB; Stephens, MA (red.). Techniki dobrego dopasowania . Nowy Jork: Marcel Dekker. ISBN 978-0-8247-7487-5 .

Henry C. Thode, Jr. (2002). Testowanie normalności . Nowy Jork: Marcel Dekker, Inc. s. 479 . ISBN 978-0-8247-9613-6 .