Problem Behrensa-Fisher'a
Czy przybliżenie analogiczne do argumentu Fishera jest konieczne do rozwiązania problemu Behrensa – Fishera?
W statystyce problem Behrensa -Fishera , nazwany na cześć Waltera Behrensa i Ronalda Fishera , to problem estymacji przedziałów i testowania hipotez dotyczących różnicy między średnimi dwóch populacji o rozkładzie normalnym, gdy zakłada się, że wariancje tych dwóch populacji są równe , na podstawie dwóch niezależnych próbek.
Specyfikacja
Jedną z trudności w omawianiu problemu Behrensa – Fishera i proponowanych rozwiązań jest to, że istnieje wiele różnych interpretacji tego, co należy rozumieć przez „problem Behrensa – Fishera”. Różnice te dotyczą nie tylko tego, co jest uznawane za odpowiednie rozwiązanie, ale nawet podstawowego stwierdzenia rozważanego kontekstu.
Kontekst
Niech X 1 , ..., X n i Y 1 , ..., Y m będą iid próbkami z dwóch populacji, które obie pochodzą z tej samej rodziny rozkładów w skali lokalizacji. Zakłada się, że parametry skali są nieznane i niekoniecznie równe, a problem polega na ocenie, czy parametry lokalizacji można racjonalnie traktować jako równe. Lehmann twierdzi, że „problem Behrensa – Fishera” jest używany zarówno w przypadku tej ogólnej formy modelu, gdy rodzina rozkładów jest dowolna, jak i wtedy, gdy wprowadza się ograniczenie do rozkładu normalnego . Podczas gdy Lehmann omawia szereg podejść do bardziej ogólnego problemu, głównie opartych na parametrach nieparametrycznych, wydaje się, że większość innych źródeł używa „problemu Behrensa – Fishera” w odniesieniu tylko do przypadku, w którym zakłada się, że rozkład jest normalny: większość tego artykułu czyni to założenie.
Wymagania rozwiązań
Przedstawiono rozwiązania problemu Behrensa-Fishera, które wykorzystują klasyczny lub bayesowski punkt widzenia wnioskowania, a każde rozwiązanie byłoby hipotetycznie nieważne, oceniane z drugiego punktu widzenia. Jeśli rozważania ograniczają się tylko do klasycznego wnioskowania statystycznego, możliwe jest poszukiwanie rozwiązań problemu wnioskowania, które są proste do zastosowania w sensie praktycznym, dając pierwszeństwo tej prostocie przed jakąkolwiek niedokładnością w odpowiednich twierdzeniach prawdopodobieństwa. Tam, gdzie wymagana jest dokładność poziomów istotności testów statystycznych, może istnieć dodatkowy wymóg, aby procedura maksymalnie wykorzystywała informacje statystyczne w zbiorze danych. Powszechnie wiadomo, że dokładny test można uzyskać, losowo odrzucając dane z większego zbioru danych, aż rozmiary próbek będą równe, łącząc dane w pary i biorąc różnice, a następnie używając zwykłego testu t do sprawdzenia, czy średnia różnica jest zero: wyraźnie nie byłoby to „optymalne” w żadnym sensie.
Zadanie określenia oszacowań przedziałów dla tego problemu jest takie, w którym podejście częstościowe nie zapewnia dokładnego rozwiązania, chociaż dostępne są pewne przybliżenia. Standardowe podejścia bayesowskie również nie dają odpowiedzi, którą można wyrazić w postaci prostych, prostych formuł, ale nowoczesne metody obliczeniowe analizy bayesowskiej pozwalają na znalezienie zasadniczo dokładnych rozwiązań. [ potrzebne źródło ] Zatem badanie problemu może być wykorzystane do wyjaśnienia różnic między podejściem częstościowym i bayesowskim do estymacji przedziałowej.
Zarys różnych podejść
podejście Behrensa i Fishera
Ronald Fisher w 1935 roku wprowadził wnioskowanie fiducial w celu zastosowania go do tego problemu. Odniósł się do wcześniejszej pracy Waltera Ulricha Behrensa z 1929 r. Behrens i Fisher zaproponowali znalezienie rozkładu prawdopodobieństwa
gdzie i to dwa przykładowe średnie i s 1 i s 2 są ich odchyleniami standardowymi . Zobacz rozkład Behrensa – Fishera . Fisher przybliżył rozkład tego, ignorując losową zmienność względnych rozmiarów odchyleń standardowych,
Rozwiązanie Fishera wywołało kontrowersje, ponieważ nie miało tej właściwości, że hipoteza o równych środkach zostałaby odrzucona z prawdopodobieństwem α , gdyby środki były faktycznie równe. Od tego czasu zaproponowano wiele innych metod leczenia tego problemu i zbadano wpływ na wynikające z nich przedziały ufności.
Przybliżone rozwiązanie t Welcha
Szeroko stosowaną metodą jest metoda BL Welcha , który podobnie jak Fisher studiował w University College London . Wariancja średniej różnicy
prowadzi do
Welch (1938) przybliżył rozkład rozkładu typu III ( skalowany rozkład chi-kwadrat pierwsze dwa zgadzają się z rozkładem . Dotyczy to następującej liczby stopni swobody (df), która na ogół nie jest liczbą całkowitą:
Przy hipotezie zerowej równych oczekiwań, μ 1 = μ 2 , rozkład statystyki Behrensa-Fisher'a T , który również zależy od ilorazu wariancji σ 1 2 / σ 2 2 , można teraz przybliżyć rozkładem t Studenta z tymi ν stopnie swobody. Ale to ν zawiera wariancje populacji σ i 2 , a te są nieznane. Poniższe oszacowanie zastępuje jedynie wariancje populacji wariancjami próby:
To jest zmienną losową. Rozkład t o losowej liczbie stopni swobody nie istnieje. T Behrensa – Fishera można z odpowiednim kwantylem rozkładu t Studenta z tymi liczbami stopni swobody , który generalnie nie jest liczbą całkowitą. W ten sposób granica między obszarem akceptacji i odrzucenia statystyki testowej T jest obliczana na podstawie wariancji empirycznych s i 2 , w sposób będący ich gładką funkcją.
Ta metoda również nie podaje dokładnie stawki nominalnej, ale generalnie nie jest zbyt odległa. [ potrzebne źródło ] Jednakże, jeśli wariancje populacji są równe lub jeśli próby są raczej małe i można założyć, że wariancje populacji są w przybliżeniu równe, dokładniejsze jest użycie testu t-Studenta . [ potrzebne źródło ]
Dokładna metoda: Te Test
Test ma na celu rozwiązanie słynnego problemu Behrensa-Fisher'a, tj. porównanie różnicy między średnimi dwóch populacji o rozkładzie normalnym, gdy zakłada się, że wariancje tych dwóch populacji nie są równe, na podstawie dwóch niezależnych prób.
Test został opracowany jako test dokładny , który pozwala na nierówne rozmiary próbek i nierówne wariancje dwóch populacji. Dokładna właściwość nadal obowiązuje nawet przy małej, bardzo małej i niezrównoważonej wielkości próbki (np. .
Statystykę Te sprawdzającą, czy średnie są różne, można obliczyć w następujący sposób:
Niech i wektorami próbek iid ( ) z i .
Niech ortogonalną której wszystkie elementy pierwszego rzędu , podobnie niech będzie pierwszymi n rzędami m ortogonalna (której wszystkie elementy pierwszego rzędu to ).
Z jest n-wymiarowym normalnym wektorem losowym.
Widzimy to z powyższego rozkładu
Inne podejścia
Zaproponowano wiele różnych podejść do ogólnego problemu, z których niektóre twierdzą, że „rozwiązują” jakąś wersję problemu. Wśród nich są,
- Chapmana w 1950 r.,
- Prokofjewa i Szyszkina w 1974 r.,
- Dudewicza i Ahmeda w 1998 r.
- Chang Wanga w 2022 roku.
W przeprowadzonym przez Dudewicza porównaniu wybranych metod stwierdzono, że procedura Dudewicza-Ahmeda jest zalecana do praktycznego zastosowania.
Dokładne rozwiązania typowych i uogólnionych problemów Behrensa-Fisher'a
Przez kilka dziesięcioleci powszechnie uważano, że nie istnieje dokładne rozwiązanie powszechnego problemu Behrensa-Fisher'a. [ potrzebne źródło ] Jednak w 1966 roku udowodniono, że ma dokładne rozwiązanie. W 2018 roku udowodniono funkcję gęstości prawdopodobieństwa uogólnionego rozkładu Behrensa-Fishera m średnich i m różnych błędów standardowych z m próbek o różnych rozmiarach z niezależnych rozkładów normalnych z różnymi średnimi i wariancjami, a także zbadano jej asymptotyczne przybliżenia. W kolejnym artykule wykazano, że klasyczny sparowany test t jest centralnym problemem Behrensa-Fishera z niezerowym współczynnikiem korelacji populacji i wyprowadzono odpowiadającą mu funkcję gęstości prawdopodobieństwa, rozwiązując powiązany niecentralny problem Behrensa-Fishera z niezerową populacją Współczynnik korelacji. Rozwiązał również bardziej ogólny niecentralny problem Behrensa-Fishera z niezerowym współczynnikiem korelacji populacji w dodatku.
Warianty
Zbadano pomniejszy wariant problemu Behrensa-Fisher'a. W tym przypadku problem polega na założeniu, że dwie średnie populacji są w rzeczywistości takie same, aby wyciągnąć wnioski na temat wspólnej średniej: na przykład można wymagać przedziału ufności dla wspólnej średniej.
Uogólnienia
Jedno uogólnienie problemu obejmuje wielowymiarowe rozkłady normalne z nieznanymi macierzami kowariancji i jest znane jako wielowymiarowy problem Behrensa – Fishera .
Nieparametryczny problem Behrensa-Fisher'a nie zakłada, że rozkłady są normalne . Testy obejmują test Cucconi z 1968 roku i test Lepage'a z 1971 roku.
Notatki
- ^ Lehmann (1975) s. 95
- ^ Lehmann (1975) Sekcja 7
- ^ Fisher, RA (1935). „Argument powierniczy we wnioskowaniu statystycznym”. Roczniki eugeniki . 8 (4): 391–398. doi : 10.1111/j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
- ^ „Argument powierniczy RA Fishera i twierdzenie Bayesa autorstwa Teddy'ego Seidenfelda” (PDF) .
- ^ "Sezer, A. et al. Porównanie przedziałów ufności dla Behrens-Fisher Problem Comm. Stats. 2015" .
- Bibliografia _
- ^ abc Wang , Chang ( 2022). „Nowy nieasymptotyczny test t dla problemów Behrensa-Fishera”. arXiv : 2210.16473 [ matematyka.ST ].
- ^ ab Dudewicz , Ma, Mai i Su (2007)
- ^ Chapman, DG (1950). „Niektóre dwa przykładowe testy” . Roczniki statystyki matematycznej . 21 (4): 601–606. doi : 10.1214/aoms/1177729755 .
- ^ Prokofiew, VN; Shishkin, AD (1974). „Kolejna klasyfikacja zestawów normalnych o nieznanych wariancjach”. inż. Elektron. fizyka . 19 (2): 141–143.
- ^ Dudewicz i Ahmed (1998, 1999)
- ^ Kabe, DG (grudzień 1966). „O dokładnym rozkładzie statystyki Fishera-Behren'-Welcha”. metryka . 10 (1): 13–15. doi : 10.1007/BF02613414 . S2CID 120965543 .
- ^ Xiao, Yongshun (22 marca 2018). „O rozwiązaniu uogólnionego problemu Behrensa-Fishera” . Daleki Wschód Journal of Theoretical Statistics . 54 (1): 21–140. doi : 10.17654/TS054010021 . Źródło 21 maja 2020 r .
- ^ a b Xiao, Yongshun (12 grudnia 2018). „O rozwiązaniu niecentralnego problemu Behrensa-Fishera z niezerowym współczynnikiem korelacji populacji” . Daleki Wschód Journal of Theoretical Statistics . 54 (6): 527–600. doi : 10.17654/TS054060527 . S2CID 125245802 . Źródło 21 maja 2020 r .
- ^ Young, GA, Smith, RL (2005) Podstawy wnioskowania statystycznego , CUP. ISBN 0-521-83971-8 (strona 204)
- ^ Belloni i Didier (2008)
- ^ Brunner, E. (2000). „Nieparametryczny problem Behrensa – Fishera: teoria asymptotyczna i przybliżenie małej próbki”. Dziennik biometryczny . 42 : 17–25. doi : 10.1002/(SICI)1521-4036(200001)42:1<17::AID-BIMJ17>3.0.CO;2-U .
- ^ Konietschke, Frank (2015). „nparcomp: pakiet oprogramowania R do nieparametrycznych wielokrotnych porównań i jednoczesnych przedziałów ufności” . Dziennik oprogramowania statystycznego . 64 (9). doi : 10.18637/jss.v064.i09 . Źródło 26 września 2016 r .
- Behrens, WU (1929). „Ein Beitrag zur Fehlerberechnung bei wenigen Beobachtungen” [Wkład w szacowanie błędów z kilkoma obserwacjami]. Landwirtschaftliche Jahrbücher . Berlin: Wiegandt i Hempel. 68 : 807–37.
- Belloni, A.; Didier, G. (2008). „O problemie Behrensa-Fishera: globalnie zbieżny algorytm i badanie skończonej próby testów Walda, LR i LM”. Roczniki statystyki . 36 (5): 2377–2408. ar Xiv : 0811.0672 . doi : 10.1214/07-AOS528 . S2CID 15968707 .
- Chang, CH; Pal, N (2008). „Ponowna wizyta w problemie Behrensa-Fisher: Porównanie pięciu metod badawczych”. Komunikacja w statystyce - symulacja i obliczenia . 37 (6): 1064–1085. doi : 10.1080/03610910802049599 . S2CID 32811488 .
- Dudewicz, EJ; Ahmed, SU (1998). „Nowe dokładne i asymptotycznie optymalne rozwiązanie problemu Behrensa – Fishera z tabelami”. American Journal of Mathematical and Management Sciences . 18 (3–4): 359–426. doi : 10.1080/01966324.1998.10737471 .
- Dudewicz, EJ; Ahmed, SU (1999). „Nowe dokładne i asymptotycznie optymalne heteroskedastyczne procedury statystyczne i tabele, II” . American Journal of Mathematical and Management Sciences . 19 (1–2): 157–180. doi : 10.1080/01966324.1999.10737478 .
- Dudewicz, EJ; Móc.; Mai, SE; Su, H. (2007). „Dokładne rozwiązania problemu Behrensa – Fishera: asymptotycznie optymalny i skończony efektywny wybór spośród próbek”. Dziennik planowania statystycznego i wnioskowania . 137 (5): 1584-1605. doi : 10.1016/j.jspi.2006.09.007 .
- Fisher, RA (1935). „Argument powierniczy we wnioskowaniu statystycznym”. Roczniki eugeniki . 8 (4): 391–398. doi : 10.1111/j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
- Fisher, RA (1941). „Asymptotyczne podejście do całki Behrensa z dalszymi tabelami dla testu istotności d”. Roczniki eugeniki . 11 : 141–172. doi : 10.1111/j.1469-1809.1941.tb02281.x .
- Fraser, DAS; Rousseau, J. (2008). „Studentyzacja i wyprowadzanie dokładnych wartości p” . Biometria . 95 (1): 1–16. doi : 10.1093/biomet/asm093 .
- Lehmann, EL (1975) Nieparametryczne: metody statystyczne oparte na rangach , Holden-Day ISBN 0-8162-4996-6 , McGraw-Hill ISBN 0-07-037073-7
- Ruben, H. (2002) „Proste, konserwatywne i solidne rozwiązanie problemu Behrensa – Fishera” , Sankhyā: The Indian Journal of Statistics , seria A, 64 (1), 139–155.
- Pardo, JA; Pardo, MD (2007). „Badanie symulacyjne nowej rodziny statystyk testowych dla problemu Behrensa – Fishera”. Kybernetes . 36 (5–6): 806–816. doi : 10.1108/03684920710749866 .
- Sawilowsky, Szlomo S (2002). „Fermat, Schubert, Einstein i Behrens – Fisher: prawdopodobna różnica między dwoma średnimi, gdy σ 1 ≠ σ 2 ” . Journal of Modern Applied Statistical Methods . 1 (2). doi : 10.22237/jmasm/1036109940 .
- Welch, BL (1938). „Znaczenie różnicy między dwoma średnimi, gdy wariancje populacji są nierówne”. Biometria . 29 (3/4): 350–62. doi : 10.2307/2332010 . JSTOR 2332010 .
- Welch, BL (1947), „Uogólnienie problemu „Studenta”, gdy dotyczy kilku różnych wariancji populacji”, Biometrika , 34 (1–2): 28–35, doi : 10.1093/biomet/34.1-2.28 , MR 0019277 , PMID 20287819
- Voinov, V.; Nikulin, M. (1995). „O problemie średnich ważonych populacji normalnych”. Pytanie . 19 (2): 7–20.
- Zheng, Republika Południowej Afryki; Shi, Nowa Zelandia; Ma, WQ (2010). „Wnioskowanie statystyczne na temat różnicy lub stosunku średnich z heteroskedastycznych populacji normalnych”. Dziennik planowania statystycznego i wnioskowania . 140 (5): 1236-1242. doi : 10.1016/j.jspi.2009.11.010 .
Linki zewnętrzne
- Dong, BL (2004) The Behrens-Fisher Problem: An Empirical Prawdopodobieństwo Podejście do ekonometrii Dokument roboczy EWP0404, University of Victoria