Problem Behrensa-Fisher'a

Nierozwiązany problem w statystyce :

Czy przybliżenie analogiczne do argumentu Fishera jest konieczne do rozwiązania problemu Behrensa – Fishera?

W statystyce problem Behrensa -Fishera , nazwany na cześć Waltera Behrensa i Ronalda Fishera , to problem estymacji przedziałów i testowania hipotez dotyczących różnicy między średnimi dwóch populacji o rozkładzie normalnym, gdy zakłada się, że wariancje tych dwóch populacji są równe , na podstawie dwóch niezależnych próbek.

Specyfikacja

Jedną z trudności w omawianiu problemu Behrensa – Fishera i proponowanych rozwiązań jest to, że istnieje wiele różnych interpretacji tego, co należy rozumieć przez „problem Behrensa – Fishera”. Różnice te dotyczą nie tylko tego, co jest uznawane za odpowiednie rozwiązanie, ale nawet podstawowego stwierdzenia rozważanego kontekstu.

Kontekst

Niech X 1 , ..., X n i Y 1 , ..., Y m będą iid próbkami z dwóch populacji, które obie pochodzą z tej samej rodziny rozkładów w skali lokalizacji. Zakłada się, że parametry skali są nieznane i niekoniecznie równe, a problem polega na ocenie, czy parametry lokalizacji można racjonalnie traktować jako równe. Lehmann twierdzi, że „problem Behrensa – Fishera” jest używany zarówno w przypadku tej ogólnej formy modelu, gdy rodzina rozkładów jest dowolna, jak i wtedy, gdy wprowadza się ograniczenie do rozkładu normalnego . Podczas gdy Lehmann omawia szereg podejść do bardziej ogólnego problemu, głównie opartych na parametrach nieparametrycznych, wydaje się, że większość innych źródeł używa „problemu Behrensa – Fishera” w odniesieniu tylko do przypadku, w którym zakłada się, że rozkład jest normalny: większość tego artykułu czyni to założenie.

Wymagania rozwiązań

Przedstawiono rozwiązania problemu Behrensa-Fishera, które wykorzystują klasyczny lub bayesowski punkt widzenia wnioskowania, a każde rozwiązanie byłoby hipotetycznie nieważne, oceniane z drugiego punktu widzenia. Jeśli rozważania ograniczają się tylko do klasycznego wnioskowania statystycznego, możliwe jest poszukiwanie rozwiązań problemu wnioskowania, które są proste do zastosowania w sensie praktycznym, dając pierwszeństwo tej prostocie przed jakąkolwiek niedokładnością w odpowiednich twierdzeniach prawdopodobieństwa. Tam, gdzie wymagana jest dokładność poziomów istotności testów statystycznych, może istnieć dodatkowy wymóg, aby procedura maksymalnie wykorzystywała informacje statystyczne w zbiorze danych. Powszechnie wiadomo, że dokładny test można uzyskać, losowo odrzucając dane z większego zbioru danych, aż rozmiary próbek będą równe, łącząc dane w pary i biorąc różnice, a następnie używając zwykłego testu t do sprawdzenia, czy średnia różnica jest zero: wyraźnie nie byłoby to „optymalne” w żadnym sensie.

Zadanie określenia oszacowań przedziałów dla tego problemu jest takie, w którym podejście częstościowe nie zapewnia dokładnego rozwiązania, chociaż dostępne są pewne przybliżenia. Standardowe podejścia bayesowskie również nie dają odpowiedzi, którą można wyrazić w postaci prostych, prostych formuł, ale nowoczesne metody obliczeniowe analizy bayesowskiej pozwalają na znalezienie zasadniczo dokładnych rozwiązań. [ potrzebne źródło ] Zatem badanie problemu może być wykorzystane do wyjaśnienia różnic między podejściem częstościowym i bayesowskim do estymacji przedziałowej.

Zarys różnych podejść

podejście Behrensa i Fishera

Ronald Fisher w 1935 roku wprowadził wnioskowanie fiducial w celu zastosowania go do tego problemu. Odniósł się do wcześniejszej pracy Waltera Ulricha Behrensa z 1929 r. Behrens i Fisher zaproponowali znalezienie rozkładu prawdopodobieństwa

gdzie i to dwa przykładowe średnie i s 1 i s 2 są ich odchyleniami standardowymi . Zobacz rozkład Behrensa – Fishera . Fisher przybliżył rozkład tego, ignorując losową zmienność względnych rozmiarów odchyleń standardowych,

Rozwiązanie Fishera wywołało kontrowersje, ponieważ nie miało tej właściwości, że hipoteza o równych środkach zostałaby odrzucona z prawdopodobieństwem α , gdyby środki były faktycznie równe. Od tego czasu zaproponowano wiele innych metod leczenia tego problemu i zbadano wpływ na wynikające z nich przedziały ufności.

Przybliżone rozwiązanie t Welcha

Szeroko stosowaną metodą jest metoda BL Welcha , który podobnie jak Fisher studiował w University College London . Wariancja średniej różnicy

prowadzi do

Welch (1938) przybliżył rozkład rozkładu typu III ( skalowany rozkład chi-kwadrat pierwsze dwa zgadzają się z rozkładem . Dotyczy to następującej liczby stopni swobody (df), która na ogół nie jest liczbą całkowitą:

Przy hipotezie zerowej równych oczekiwań, μ 1 = μ 2 , rozkład statystyki Behrensa-Fisher'a T , który również zależy od ilorazu wariancji σ 1 2 / σ 2 2 , można teraz przybliżyć rozkładem t Studenta z tymi ν stopnie swobody. Ale to ν zawiera wariancje populacji σ i 2 , a te są nieznane. Poniższe oszacowanie zastępuje jedynie wariancje populacji wariancjami próby:

To jest zmienną losową. Rozkład t o losowej liczbie stopni swobody nie istnieje. T Behrensa – Fishera można z odpowiednim kwantylem rozkładu t Studenta z tymi liczbami stopni swobody , który generalnie nie jest liczbą całkowitą. W ten sposób granica między obszarem akceptacji i odrzucenia statystyki testowej T jest obliczana na podstawie wariancji empirycznych s i 2 , w sposób będący ich gładką funkcją.

Ta metoda również nie podaje dokładnie stawki nominalnej, ale generalnie nie jest zbyt odległa. [ potrzebne źródło ] Jednakże, jeśli wariancje populacji są równe lub jeśli próby są raczej małe i można założyć, że wariancje populacji są w przybliżeniu równe, dokładniejsze jest użycie testu t-Studenta . [ potrzebne źródło ]


Dokładna metoda: Te Test

Test ma na celu rozwiązanie słynnego problemu Behrensa-Fisher'a, tj. porównanie różnicy między średnimi dwóch populacji o rozkładzie normalnym, gdy zakłada się, że wariancje tych dwóch populacji nie są równe, na podstawie dwóch niezależnych prób.

Test został opracowany jako test dokładny , który pozwala na nierówne rozmiary próbek i nierówne wariancje dwóch populacji. Dokładna właściwość nadal obowiązuje nawet przy małej, bardzo małej i niezrównoważonej wielkości próbki (np. .

Statystykę Te sprawdzającą, czy średnie są różne, można obliczyć w następujący sposób:

Niech i wektorami próbek iid ( ) z i .

Niech ortogonalną której wszystkie elementy pierwszego rzędu , podobnie niech będzie pierwszymi n rzędami m ortogonalna (której wszystkie elementy pierwszego rzędu to ).

Z jest n-wymiarowym normalnym wektorem losowym.

Widzimy to z powyższego rozkładu

Inne podejścia

Zaproponowano wiele różnych podejść do ogólnego problemu, z których niektóre twierdzą, że „rozwiązują” jakąś wersję problemu. Wśród nich są,

  • Chapmana w 1950 r.,
  • Prokofjewa i Szyszkina w 1974 r.,
  • Dudewicza i Ahmeda w 1998 r.
  • Chang Wanga w 2022 roku.

W przeprowadzonym przez Dudewicza porównaniu wybranych metod stwierdzono, że procedura Dudewicza-Ahmeda jest zalecana do praktycznego zastosowania.

Dokładne rozwiązania typowych i uogólnionych problemów Behrensa-Fisher'a

Przez kilka dziesięcioleci powszechnie uważano, że nie istnieje dokładne rozwiązanie powszechnego problemu Behrensa-Fisher'a. [ potrzebne źródło ] Jednak w 1966 roku udowodniono, że ma dokładne rozwiązanie. W 2018 roku udowodniono funkcję gęstości prawdopodobieństwa uogólnionego rozkładu Behrensa-Fishera m średnich i m różnych błędów standardowych z m próbek o różnych rozmiarach z niezależnych rozkładów normalnych z różnymi średnimi i wariancjami, a także zbadano jej asymptotyczne przybliżenia. W kolejnym artykule wykazano, że klasyczny sparowany test t jest centralnym problemem Behrensa-Fishera z niezerowym współczynnikiem korelacji populacji i wyprowadzono odpowiadającą mu funkcję gęstości prawdopodobieństwa, rozwiązując powiązany niecentralny problem Behrensa-Fishera z niezerową populacją Współczynnik korelacji. Rozwiązał również bardziej ogólny niecentralny problem Behrensa-Fishera z niezerowym współczynnikiem korelacji populacji w dodatku.

Warianty

Zbadano pomniejszy wariant problemu Behrensa-Fisher'a. W tym przypadku problem polega na założeniu, że dwie średnie populacji są w rzeczywistości takie same, aby wyciągnąć wnioski na temat wspólnej średniej: na przykład można wymagać przedziału ufności dla wspólnej średniej.

Uogólnienia

Jedno uogólnienie problemu obejmuje wielowymiarowe rozkłady normalne z nieznanymi macierzami kowariancji i jest znane jako wielowymiarowy problem Behrensa – Fishera .

Nieparametryczny problem Behrensa-Fisher'a nie zakłada, że ​​rozkłady są normalne . Testy obejmują test Cucconi z 1968 roku i test Lepage'a z 1971 roku.

Notatki

  1. ^ Lehmann (1975) s. 95
  2. ^ Lehmann (1975) Sekcja 7
  3. ^ Fisher, RA (1935). „Argument powierniczy we wnioskowaniu statystycznym”. Roczniki eugeniki . 8 (4): 391–398. doi : 10.1111/j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
  4. ^ „Argument powierniczy RA Fishera i twierdzenie Bayesa autorstwa Teddy'ego Seidenfelda” (PDF) .
  5. ^ "Sezer, A. et al. Porównanie przedziałów ufności dla Behrens-Fisher Problem Comm. Stats. 2015" .
  6. Bibliografia _
  7. ^ abc Wang , Chang ( 2022). „Nowy nieasymptotyczny test t dla problemów Behrensa-Fishera”. arXiv : 2210.16473 [ matematyka.ST ].
  8. ^ ab Dudewicz , Ma, Mai i Su (2007)
  9. ^ Chapman, DG (1950). „Niektóre dwa przykładowe testy” . Roczniki statystyki matematycznej . 21 (4): 601–606. doi : 10.1214/aoms/1177729755 .
  10. ^ Prokofiew, VN; Shishkin, AD (1974). „Kolejna klasyfikacja zestawów normalnych o nieznanych wariancjach”. inż. Elektron. fizyka . 19 (2): 141–143.
  11. ^ Dudewicz i Ahmed (1998, 1999)
  12. ^   Kabe, DG (grudzień 1966). „O dokładnym rozkładzie statystyki Fishera-Behren'-Welcha”. metryka . 10 (1): 13–15. doi : 10.1007/BF02613414 . S2CID 120965543 .
  13. ^ Xiao, Yongshun (22 marca 2018). „O rozwiązaniu uogólnionego problemu Behrensa-Fishera” . Daleki Wschód Journal of Theoretical Statistics . 54 (1): 21–140. doi : 10.17654/TS054010021 . Źródło 21 maja 2020 r .
  14. ^ a b   Xiao, Yongshun (12 grudnia 2018). „O rozwiązaniu niecentralnego problemu Behrensa-Fishera z niezerowym współczynnikiem korelacji populacji” . Daleki Wschód Journal of Theoretical Statistics . 54 (6): 527–600. doi : 10.17654/TS054060527 . S2CID 125245802 . Źródło 21 maja 2020 r .
  15. ^   Young, GA, Smith, RL (2005) Podstawy wnioskowania statystycznego , CUP. ISBN 0-521-83971-8 (strona 204)
  16. ^ Belloni i Didier (2008)
  17. ^ Brunner, E. (2000). „Nieparametryczny problem Behrensa – Fishera: teoria asymptotyczna i przybliżenie małej próbki”. Dziennik biometryczny . 42 : 17–25. doi : 10.1002/(SICI)1521-4036(200001)42:1<17::AID-BIMJ17>3.0.CO;2-U .
  18. ^ Konietschke, Frank (2015). „nparcomp: pakiet oprogramowania R do nieparametrycznych wielokrotnych porównań i jednoczesnych przedziałów ufności” . Dziennik oprogramowania statystycznego . 64 (9). doi : 10.18637/jss.v064.i09 . Źródło 26 września 2016 r .

Linki zewnętrzne