Dokładny test
W statystyce dokładny (istotności) test to taki test, że jeśli hipoteza zerowa jest prawdziwa, to wszystkie założenia przyjęte podczas wyprowadzania rozkładu statystyki testowej są spełnione. Użycie dokładnego testu zapewnia istotności który utrzymuje poziom błędu typu I testu ( ) na pożądanym poziomie istotności testu. Na przykład dokładny test na poziomie istotności , powtórzony na wielu próbkach, w których jest prawdziwa, odrzuci co najwyżej czasu. Kontrastuje to z przybliżonym testem , w którym pożądany poziom błędu typu I jest utrzymywany tylko w przybliżeniu (tj.: test może odrzucić> 5% czasu), podczas gdy przybliżenie to może być zbliżone do zgodnie z potrzebami, zwiększając wielkość próbki.
Dokładne testy oparte na dyskretnych statystykach testowych mogą konserwatywne, co wskazuje, że rzeczywisty wskaźnik odrzuceń leży poniżej nominalnego poziomu . Na przykład tak jest w przypadku dokładnego testu Fishera i jego potężniejszej alternatywy, testu Boschloo . Jeśli statystyka testowa jest ciągła, dokładnie osiągnie poziom istotności. [ potrzebne źródło ]
Testy parametryczne , takie jak stosowane w statystyce dokładnej , są testami dokładnymi, gdy założenia parametryczne są w pełni spełnione, ale w praktyce użycie terminu test dokładny (istotności) jest zarezerwowane dla testów nieparametrycznych, tj. testów, które nie spoczywaj na założeniach parametrycznych [ potrzebne źródło ] . Jednak w praktyce większość implementacji oprogramowania do testów nieparametrycznych wykorzystuje algorytmy asymptotyczne do uzyskania wartości istotności, co czyni test niedokładnym.
Stąd, gdy wynik analizy statystycznej jest określany jako „test dokładny” lub określa „dokładną wartość p ”, oznacza to, że test jest zdefiniowany bez założeń parametrycznych i jest oceniany bez użycia algorytmów przybliżonych. Zasadniczo jednak może to również oznaczać, że test parametryczny został zastosowany w sytuacji, gdy wszystkie założenia parametryczne są w pełni spełnione, ale w większości przypadków niemożliwe jest całkowite udowodnienie tego w rzeczywistej sytuacji. Wyjątki, w których jest pewne, że testy parametryczne są dokładne, obejmują testy oparte na rozkładzie dwumianowym lub Poissona. Termin test permutacyjny jest czasami używany jako synonim testu dokładnego, ale należy pamiętać, że wszystkie testy permutacyjne są testami dokładnymi, ale nie wszystkie testy dokładne są testami permutacyjnymi.
Sformułowanie
Podstawowe równanie leżące u podstaw dokładnych testów to
Gdzie:
- x to rzeczywisty obserwowany wynik,
- Pr( y ) jest prawdopodobieństwem przy hipotezie zerowej potencjalnie zaobserwowanego wyniku y ,
- T ( y ) jest wartością statystyki testowej dla wyniku y , przy czym większe wartości T reprezentują przypadki, które hipotetycznie reprezentują większe odstępstwa od hipotezy zerowej,
i gdzie suma obejmuje wszystkie wyniki y (w tym obserwowany), które mają tę samą wartość statystyki testowej otrzymanej dla obserwowanej próby x lub większą.
Przykład: test chi-kwadrat Pearsona a test dokładny
Prostym przykładem tej koncepcji jest obserwacja, że test chi-kwadrat Pearsona jest testem przybliżonym. Załóżmy, że test chi-kwadrat Pearsona jest używany do ustalenia, czy sześciościenna kostka jest „sprawiedliwa”, wskazując, że każdy z sześciu możliwych wyników daje równie często. Jeśli kostką rzucono n razy, to „oczekuje się” , że każdy wynik zostanie rzucony n /6 razy. Statystyka testowa jest
gdzie X k to liczba przypadków zaobserwowania wyniku k . Jeśli hipoteza zerowa o „rzetelności” jest prawdziwa, wówczas rozkład prawdopodobieństwa statystyki testowej można zbliżyć do rozkładu chi-kwadrat z 5 stopniami swobody, jeśli jest to pożądane, poprzez wystarczająco dużą wielkość próby n . Z drugiej strony, jeśli n jest małe, to prawdopodobieństwa oparte na rozkładzie chi-kwadrat mogą nie być wystarczająco bliskimi przybliżeniami. Znalezienie dokładnego prawdopodobieństwa, że ta statystyka testowa przekroczy określoną wartość, wymagałoby wówczas kombinatorycznego wyliczenia wszystkich wyników eksperymentu, który daje tak dużą wartość statystyki testowej. Wątpliwe jest zatem, czy należy stosować tę samą statystykę testową. test ilorazu wiarygodności , a statystyka testowa może nie być funkcją monotoniczną powyższej.
Przykład: dokładny test Fishera
Dokładny test Fishera , oparty na pracach Ronalda Fishera i EJG Pitmana z lat trzydziestych XX wieku, jest dokładny, ponieważ rozkład próbkowania (warunkowy na marginesach) jest dokładnie znany. Należy to porównać z testem chi-kwadrat Pearsona , który (chociaż testuje to samo zero) nie jest dokładny, ponieważ rozkład statystyki testowej jest tylko asymptotycznie poprawny.
Zobacz też
- Ronald Fisher (1954) Metody statystyczne dla pracowników naukowych . Olivera i Boyda.
- Mehta, CR ; Patel, NR (1998). „Dokładne wnioskowanie dla danych kategorycznych”. W P. Armitage i T. Colton, red., Encyclopedia of Biostatistics , Chichester: John Wiley, s. 1411–1422. niepublikowany preprint
- Corcoran, CD; Senchaudhuri, P.; Mehta, CR; Patel, NR (2005). „Dokładne wnioskowanie dla danych kategorycznych”. Encyklopedia biostatystyki . doi : 10.1002/0470011815.b2a10019 . ISBN 047084907X .