Rozkład prawdopodobieństwa
W statystyce rozkład Behrensa – Fishera , nazwany na cześć Ronalda Fishera i Waltera Behrensa , to sparametryzowana rodzina rozkładów prawdopodobieństwa wynikająca z rozwiązania problemu Behrensa – Fishera zaproponowanego najpierw przez Behrensa, a kilka lat później przez Fishera. Problem Behrensa-Fishera polega na wnioskowaniu statystycznym dotyczącym różnicy między średnimi dwóch populacji o rozkładzie normalnym , gdy stosunek ich wariancji nie jest znany (aw szczególności nie wiadomo, czy ich wariancje są równe).
Definicja
Rozkład Behrensa – Fishera to rozkład zmiennej losowej postaci
T
2
sałata θ -
T
1
grzech θ
{\ Displaystyle T_ {2} \ sałata \ teta -T_ {1} \ sin \ teta \,}
gdzie T 1 i T 2 są niezależnymi zmiennymi losowymi , każda z rozkładem t- Studenta , z odpowiednimi stopniami swobody ν 1 = n 1 - 1 i ν 2 = n 2 - 1, a θ jest stałą. Zatem rodzina rozkładów Behrensa-Fishera jest sparametryzowana przez ν 1 , ν 2 i θ .
Pochodzenie
Załóżmy, że wiadomo, że dwie wariancje populacji są równe, a próbki o rozmiarach n 1 i n 2 są pobierane z dwóch populacji:
X
1 , 1
, … ,
X
1 ,
n
1
∼
ja . ja . re .
N (
μ
1
,
σ
2
) ,
X
2 , 1
, … ,
X
2 ,
n
2
∼
ja . ja . re .
N (
μ
2
,
σ
2
) .
{\ Displaystyle {\ rozpocząć {wyrównane} X_ {1,1}, \ ldots, X_ {1, n_ {1}} i \ sim \ nazwa operatora {iid} N (\ mu _ {1}, \ sigma ^ {2 }),\\[6pt]X_{2,1},\ldots,X_{2,n_{2}}&\sim \operatorname {iid} N(\mu _{2},\sigma ^{2} ).\end{wyrównane}}}
gdzie „iid” to niezależne zmienne losowe o identycznym rozkładzie, a N oznacza rozkład normalny . Dwa przykładowe średnie to
X Ż
1
= (
X
1 , 1
+ ⋯ +
X
1 ,
n
1
)
/
n
1
X Ż
2
= (
X
2 , 1
+ ⋯ +
X
2 ,
n
2
)
/
n
2
{\ Displaystyle {\ rozpocząć {wyrównane }{\bar {X}}_{1}&=(X_{1,1}+\cdots +X_{1,n_{1}})/n_{1}\\[6pt]{\bar {X }}_{2}&=(X_{2,1}+\cdots +X_{2,n_{2}})/n_{2}\end{wyrównane}}}
Zwykłe „ połączone ” nieobciążone oszacowanie wspólnej wariancji σ 2 jest wtedy równe
S
p o o l mi re
2
=
∑
k = 1
n
1
(
X
1 , k
-
X ¯
1
)
2
+
∑
k = 1
n
2
(
X
2 , k
-
X ¯
2
)
2
n
1
+
n
2
- 2
=
(
n
1
- 1 )
S
1
2
+ (
n
2
- 1 )
S
2
2
n
1
+
n
2
- 2
{\ Displaystyle S _ {\ operatorname {połączone}} ^ {2} = {\ Frac {\ suma _{k=1}^{n_{1}}(X_{1,k}-{\bar {X}}_{1})^{2}+\suma _{k=1}^{n_{ 2}}(X_{2,k}-{\bar {X}}_{2})^{2}}{n_{1}+n_{2}-2}}={\frac {(n_{ 1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}}}
gdzie S 1 2 i S 2 2 są zwykłymi nieobciążonymi ( skorygowanymi Besselem ) oszacowaniami dwóch wariancji populacji.
Przy tych założeniach kluczowa ilość
(
μ
2
-
μ
1
) - (
X Ż
2
-
X Ż
1
)
S
p o o l mi re 2
n
1
+
S
p
o o l mi re 2
n
2
{
\ Displaystyle {\ Frac {(\ mu _ { 2} - \ mu _ {1}) - ({\ bar {X}} _ {2} - {\ bar {X}} _ {1})} {\ Displaystyle {\ sqrt {{\ Frac {S_ { \mathrm {połączone} }^{2}}{n_{1}}}+{\frac {S_{\mathrm {połączone} }^{2}}{n_{2}}}}}}}
ma rozkład t z n 1 + n 2 − 2 stopniami swobody . W związku z tym można znaleźć przedział ufności dla μ 2 − μ 1 , którego punkty końcowe to
X Ż
2
-
X
1
Ż
± ZA ⋅
S
p o o l mi re
1
n
1
+
1
n
2
,
{\ Displaystyle {\ bar {X}} _ {2} - {\ bar {X_ {1}}} \pm A\cdot S_ {\mathrm {w puli} }{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}},}
gdzie A jest odpowiednim kwantylem rozkładu t.
Jednak w problemie Behrensa – Fishera nie wiadomo, czy dwie wariancje populacji są równe, ani nie jest znany ich stosunek. Fisher uważał [ potrzebne źródło ] za kluczową wielkość
(
μ
2
-
μ
1
) - (
X ¯
2
-
X ¯
1
)
S
1
2
n
1
+
S
2
2
n
2
.
{\ Displaystyle {\ Frac {(\ mu _ {2} - \ mu _ {1}) - ({\ bar {X}} _ {2} - {\ bar {X}} _ {1})} \ Displaystyle {\ sqrt {{\ Frac {S_ {1} ^ {2}} {n_ {1}}} + {\ Frac {S_ {2} ^ {2}} {n_ {2}}}}}} }.}
Można to zapisać jako
T
2
sałata θ -
T
1
grzech θ ,
{\ Displaystyle T_ {2} \ cos \ teta -T_ {1} \ sin \ teta, \,}
Gdzie
T
ja
=
μ
ja
-
X Ż
ja
S
ja
/
n
ja
dla
ja = 1 , 2
{\ Displaystyle T_ {i} = {\ Frac {\ mu _ {i} - {\ bar {X}} _ {i} }{S_{i}/{\sqrt {n_{i}}}}}{\text{ dla }}i=1,2\,}
są zwykłymi statystykami t dla jednej próby i
dębnik θ =
S
1
/
n
1
S
2
/
n
2
{\ Displaystyle \ dębnik \ teta = {\ Frac {S_ {1} / {\ sqrt {n_ {1}}}} {S_ {2} / {\ kwadrat {n_{2}}}}}}
i przyjmuje się, że θ znajduje się w pierwszej ćwiartce. Szczegóły algebraiczne są następujące:
(
μ
2
-
μ
1
) - (
X ¯
2
-
X ¯
1
)
S
1
2
n
1
+
S
2
2
n
2
=
μ
2
-
X ¯
2
S
1
2
n
1
+
S
2
2
n
2
-
μ
1
-
X ¯
1
S
1
2
n
1
+
S
2
2
n
2
=
μ
2
-
X ¯
2
S
2
/
n
2
⏟
To jest
T
2
⋅
(
S
2
/
n
2
S
1
2
n
1
+
S
2
2
n
2
)
⏟
To jest
sałata θ
-
μ
1
-
X ¯
1
S
1
/
n
1
⏟
To jest
T
1
⋅
(
S
1
/
n
1
S
1
2
n
1
+
S
2
2
n
2
)
⏟
To jest
grzech θ
. ( 1 )
{\ Displaystyle {\ rozpocząć {wyrównane}} {\ Frac {(\ mu _ {2} - \ mu _ {1}) - ({\ bar {X}} _ {2} - {\ bar {X} }} _ {1}}} {\ Displaystyle {\ sqrt {{\ Frac {S_ {1} ^ {2}} {n_ {1}}} + {\ Frac {S_ {2} ^ {2}} n_ {2}}}}}} & = {\ Frac {\ mu _ {2} - {\ bar {X}} _ {2}} {\ Displaystyle {\ sqrt {{\ Frac {S_ {1} ^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}-{\frac {\mu _{1}-{ \ bar {X}} _ {1}} {\ Displaystyle {\ sqrt {{\ Frac {S_ {1} ^ {2}} {n_ {1}}} + {\ Frac {S_ {2} ^ {2} }}{n_{2}}}}}}}\\[10pt]&=\underbrace {\frac {\mu _{2}-{\bar {X}}_{2}}{S_{2} /{\sqrt {n_{2}}}}} _{{\text{To jest }}T_{2}}\cdot \underbrace {\left({\frac {S_{2}/{\sqrt {n_ {2}}}} {\ Displaystyle {\ sqrt {{\ Frac {S_ {1} ^ {2}} {n_ {1}}} + {\ Frac {S_ {2} ^ {2}} {n_ { 2}}}}}}}\right)} _{{\text{To jest }}\cos \theta}-\underbrace {\frac {\mu _{1}-{\bar {X}}_{ 1}}{S_{1}/{\sqrt {n_{1}}}}} _{{\text{To jest }}T_{1}}\cdot \underbrace {\left({\frac {S_{ 1} / {\ sqrt {n_ {1}}}} {\ Displaystyle {\ sqrt {{\ Frac {S_ {1} ^ {2}} {n_ {1}}} + {\ Frac {S_ {2} ^{2}}{n_{2}}}}}}}\right)} _{{\text{To jest }}\sin \theta}.\qquad \qquad \qquad (1)\end{wyrównane} }}
Fakt, że suma kwadratów wyrażeń w nawiasach powyżej wynosi 1, oznacza, że są to cosinus do kwadratu i sinus do kwadratu pewnego kąta.
Rozkład Behrena – Fishera jest w rzeczywistości rozkładem warunkowym wielkości (1) powyżej, biorąc pod uwagę wartości wielkości oznaczonych cos θ i grzech θ . W efekcie warunki Fishera dotyczące informacji pomocniczych .
Fisher następnie znalazł „ przedział odniesienia ”, którego punkty końcowe są
X Ż
2
-
X Ż
1
± ZA
S
1
2
n
1
+
S
2
2
n
2
{\ Displaystyle {\ bar {X}} _ {2} - {\ bar {X}} _ {1} \ pm A { \sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}
gdzie A jest odpowiednim punktem procentowym rozkładu Behrensa – Fishera. Fisher twierdził [ potrzebne źródło ] , że prawdopodobieństwo, że μ 2 - μ 1 znajduje się w tym przedziale, biorąc pod uwagę dane (ostatecznie X s), jest prawdopodobieństwem, że zmienna losowa o rozkładzie Behrensa-Fishera mieści się między - A i A .
Przedziały odniesienia a przedziały ufności
Bartlett [ potrzebne źródło ] wykazał, że ten „przedział odniesienia” nie jest przedziałem ufności, ponieważ nie ma stałego współczynnika pokrycia. Fisher nie uważał tego za przekonujący sprzeciw wobec użycia odstępu czasu. [ potrzebne źródło ]
Dalsza lektura
Kendall, Maurice G., Stuart, Alan (1973) Zaawansowana teoria statystyki, tom 2: Wnioskowanie i relacje, wydanie 3 , Griffin. ISBN 0-85264-215-6 (rozdział 21)
Dyskretna jednowymiarowa
ze skończonym wsparciem
z nieskończonym wsparciem
Ciągła jednowymiarowa
obsługiwane na ograniczonym przedziale
obsługiwane na pół-nieskończonym przedziale
obsługiwane na całej linii rzeczywistej
ze wsparciem , którego rodzaj jest różny
Mieszany jednowymiarowy
Wielowymiarowe (wspólne)
Kierunkowy
Zdegenerowany i pojedynczy
Rodziny