Dystrybucja zerowa
W testowaniu hipotez statystycznych rozkład zerowy to rozkład prawdopodobieństwa statystyki testowej , gdy hipoteza zerowa jest prawdziwa. Na przykład w teście F rozkład zerowy jest rozkładem F . Rozkład zerowy to narzędzie, którego naukowcy często używają podczas przeprowadzania eksperymentów. Rozkład zerowy to rozkład dwóch zestawów danych w ramach hipotezy zerowej. Jeśli wyniki dwóch zestawów danych nie wykraczają poza parametry oczekiwanych wyników, wówczas mówi się, że hipoteza zerowa jest prawdziwa.
Przykłady zastosowania
Hipoteza zerowa jest często częścią eksperymentu. Hipoteza zerowa próbuje pokazać, że wśród dwóch zestawów danych nie ma statystycznej różnicy między wynikami robienia jednej rzeczy w porównaniu z robieniem innej rzeczy. Na przykład naukowiec może próbować udowodnić, że ludzie, którzy chodzą dwie mile dziennie, mają zdrowsze serca niż ludzie, którzy chodzą mniej niż dwie mile dziennie. Naukowiec użyłby hipotezy zerowej, aby sprawdzić stan zdrowia serc ludzi, którzy chodzą dwie mile dziennie, w porównaniu ze zdrowiem serc ludzi, którzy chodzą mniej niż dwie mile dziennie. Gdyby nie było różnicy między ich tętnem, naukowiec mógłby powiedzieć, że statystyki testowe byłyby zgodne z rozkładem zerowym. Następnie naukowcy mogliby ustalić, że jeśli istnieje znacząca różnica, oznacza to, że test jest zgodny z rozkładem alternatywnym.
Uzyskanie rozkładu zerowego
W procedurze testowania hipotez należy utworzyć łączny rozkład statystyk testowych do przeprowadzenia testu i kontroli błędów I rodzaju . Jednak prawdziwy rozkład jest często nieznany i do reprezentacji danych należy użyć odpowiedniego rozkładu zerowego. Na przykład, jedna próba i dwie próby mogą wykorzystywać statystyki t , które mają zerowy rozkład Gaussa, podczas gdy statystyki F , testujące k grupy średnich populacji, które mają kwadrat Gaussa, tworzą rozkład zerowy. Rozkład zerowy jest definiowany jako asymptotyczne rozkłady zerowych statystyk testowych przekształconych kwantylowo, w oparciu o krańcowy rozkład zerowy. W praktyce statystyki testowe rozkładu zerowego są często nieznane, ponieważ opierają się na nieznanym rozkładzie generującym dane. Procedury ponownego próbkowania, takie jak nieparametryczny lub oparty na modelu bootstrap , mogą zapewnić spójne estymatory dla rozkładów zerowych. Niewłaściwy dobór rozkładu zerowego ma istotny wpływ na i moc I rodzaju właściwości w procesie testowania. Innym podejściem do uzyskania rozkładu zerowego statystyki testowej jest wykorzystanie danych do generowania estymacji rozkładu zerowego.
Rozkład zerowy przy dużej wielkości próby
Rozkład zerowy odgrywa kluczową rolę w testowaniu na dużą skalę. Duży rozmiar próby pozwala nam zaimplementować bardziej realistyczny empiryczny rozkład zerowy. Można wygenerować empiryczną wartość zerową za pomocą MLE . W ramach bayesowskich badania na dużą skalę umożliwiają umieszczenie rozkładu zerowego w kontekście probabilistycznym z jego niezerowymi odpowiednikami. Gdy wielkość próby n jest duża, na przykład ponad 10 000, empiryczne wartości zerowe wykorzystują własne dane badania do oszacowania odpowiedniego rozkładu wartości zerowych. Ważnym założeniem jest to, że ze względu na duży odsetek przypadków zerowych (> 0,9) dane mogą pokazywać sam rozkład zerowy. Teoretyczne zero może w niektórych przypadkach zawieść, co nie jest całkowicie błędne, ale wymaga odpowiedniej korekty. W wielkoskalowych zbiorach danych łatwo jest znaleźć odchylenia danych od idealnych ram matematycznych, np. próby niezależne io identycznym rozkładzie (iid). Ponadto korelacja między jednostkami próby i nieobserwowanymi współzmiennymi może prowadzić do błędnego teoretycznego rozkładu zerowego. Metody permutacji są często używane w testach wielokrotnych w celu uzyskania empirycznego rozkładu zerowego wygenerowanego z danych. Empiryczne metody zerowe zostały wprowadzone wraz z centralnym algorytmem dopasowywania w Papier Efrona .
Metodą permutacji należy rozważyć kilka punktów. Metody permutacji nie są odpowiednie dla skorelowanych jednostek próbkowania, ponieważ proces próbkowania permutacji implikuje niezależność i wymaga założeń iid. Ponadto literatura wykazała, że rozkład permutacji szybko zbiega się do N (0,1), gdy n staje się duże. W niektórych przypadkach techniki permutacji i metody empiryczne można łączyć za pomocą permutacji null replace N(0,1) w algorytmie empirycznym.