Metoda szacowania wariancji kilku różnych populacji
W statystyce wariancja zbiorcza (znana również jako wariancja połączona , wariancja złożona lub wariancja ogólna i zapisywana metodą szacowania wariancji kilku różnych populacji, gdy średnia każdej może być różna, ale można założyć, że wariancja każdej populacji jest taka sama. Oszacowanie liczbowe wynikające z zastosowania tej metody jest również nazywane wariancją puli.
Przy założeniu równych wariancji populacji wariancja zbiorczej próby zapewnia wyższą precyzję oszacowania wariancji niż wariancje z poszczególnych prób. Ta wyższa precyzja może prowadzić do zwiększenia mocy statystycznej , gdy jest używana w testach statystycznych porównujących populacje, takich jak test t .
Pierwiastek kwadratowy z połączonego estymatora wariancji jest znany jako połączone odchylenie standardowe (znane również jako połączone odchylenie standardowe , złożone odchylenie standardowe lub ogólne odchylenie standardowe ).
W statystyce często dane są zbierane dla zmiennej zależnej y w zakresie wartości dla zmiennej niezależnej x . Na przykład obserwacja zużycia paliwa może być badana jako funkcja prędkości obrotowej silnika przy stałym obciążeniu silnika. Jeśli w celu uzyskania małej wariancji y wymagane są liczne powtarzane testy dla każdej wartości x , koszt testowania może stać się zbyt duży . Rozsądne oszacowania wariancji można określić, stosując zasadę zbiorczej wariancji po powtórzeniu każdego testu przy określonym x tylko kilka razy.
Definicja i obliczenia
Łączna wariancja jest oszacowaniem stałej wspólnej wariancji różnych populacji, które mają różne średnie.
są używane w różnych kontekstach. [ potrzebne źródło Ten dać bezstronne gdy obie grupy mają równą Ten ostatni może dać wydajne Zauważ, że wielkości po prawej stronie obu równań znajdują się nieobciążone oszacowania.
Przykład
Rozważmy następujący zestaw danych dla y uzyskanych na różnych poziomach zmiennej niezależnej x .
X
y
1
31, 30, 29
2
42, 41, 40, 39
3
31, 28
4
23, 22, 21, 19, 18
5
21, 20, 19, 18,17
Liczbę prób, średnią, wariancję i odchylenie standardowe przedstawiono w kolejnej tabeli.
X
N
masz na myśli
ja 2 _
s ja
1
3
30,0
1.0
1.0
2
4
40,5
1,67
1.29
3
2
29,5
4.5
2.12
4
5
20.6
4.3
2.07
5
5
19.0
2.5
1,58
Statystyki te reprezentują wariancję i odchylenie standardowe dla każdego podzbioru danych na różnych poziomach x . Jeśli możemy założyć, że te same zjawiska generują błąd losowy na każdym poziomie x , powyższe dane można „zsumować”, aby wyrazić pojedyncze oszacowanie wariancji i odchylenia standardowego. W pewnym sensie sugeruje to znalezienie średniej wariancji lub odchylenia standardowego wśród pięciu powyższych wyników. Ta średnia wariancja jest obliczana przez ważenie poszczególnych wartości wielkością podzbioru dla każdego poziomu x . Zatem zbiorcza wariancja jest zdefiniowana przez
gdzie n 1 , n 2 , . . ., n k to rozmiary podzbiorów danych na każdym poziomie zmiennej x , a s 1 2 , s 2 2 , . . ., sk 2 są ich odpowiednimi wariancjami.
Łączna wariancja danych przedstawionych powyżej wynosi zatem:
Wpływ na precyzję
Wariancja puli to oszacowanie, gdy istnieje korelacja między zestawami danych połączonych lub średnia zestawów danych nie jest identyczna. Wariancja zbiorcza jest mniej dokładna, im bardziej niezerowa jest korelacja lub im bardziej odległe są średnie między zestawami danych.
Zmienność danych dla nienakładających się zestawów danych to:
gdzie średnia jest zdefiniowana jako:
Biorąc pod uwagę obciążone maksymalne prawdopodobieństwo zdefiniowane jako:
Wtedy błąd w obciążonym oszacowaniu maksymalnego prawdopodobieństwa wynosi:
Zakładając, że N jest duże, takie że:
Wtedy błąd oszacowania zmniejsza się do:
Lub alternatywnie:
Agregacja danych odchylenia standardowego
Zamiast szacować zbiorcze odchylenie standardowe, poniżej przedstawiono sposób dokładnego zagregowania odchylenia standardowego, gdy dostępnych jest więcej informacji statystycznych.
Statystyki populacyjne
Populacje zbiorów, które mogą się pokrywać, można obliczyć w prosty sposób:
Populacje zbiorów, które się nie pokrywają, można obliczyć w prosty sposób:
Odchylenia standardowe nienakładających się ( X ∩ Y = ∅ ) subpopulacji można agregować w następujący sposób, jeśli znana jest wielkość (rzeczywista lub względna) i średnie każdej z nich:
Załóżmy na przykład, że wiadomo, że przeciętny Amerykanin ma średni wzrost 70 cali z odchyleniem standardowym wynoszącym trzy cale i że przeciętna Amerykanka ma średni wzrost 65 cali z odchyleniem standardowym wynoszącym dwa cale. Załóżmy również, że liczba mężczyzn N jest równa liczbie kobiet. Wtedy średnią i odchylenie standardowe wysokości dorosłych Amerykanów można obliczyć jako
Dla bardziej ogólnego przypadku M nienakładających się populacji, X 1 do X M , i populacji zagregowanej ,
,
Gdzie
Jeśli wielkość (rzeczywista lub względna), średnia i odchylenie standardowe dwóch nakładających się populacji są znane dla populacji, a także ich przecięcia, wówczas odchylenie standardowe całej populacji można nadal obliczyć w następujący sposób:
Jeśli dwa lub więcej zestawów danych jest dodawanych punkt po punkcie danych, odchylenie standardowe wyniku można obliczyć, jeśli znane jest odchylenie standardowe każdego zestawu danych i kowariancja między każdą parą zestawów danych :
W szczególnym przypadku, gdy nie istnieje korelacja między żadną parą zestawów danych, wówczas relacja sprowadza się do pierwiastka sumy kwadratów:
Statystyki oparte na próbkach
Odchylenia standardowe nienakładających się ( X ∩ Y = ∅ ) podprób można agregować w następujący sposób, jeśli znana jest rzeczywista wielkość i średnie każdej z nich:
W bardziej ogólnym przypadku M nienakładających się zestawów danych, od X 1 do X M , i zagregowanego zestawu danych ,
Gdzie
Jeśli rozmiar, średnia i odchylenie standardowe dwóch nakładających się próbek są znane dla próbek, a także ich przecięcia, to nadal można obliczyć odchylenie standardowe próbki zagregowanej. Ogólnie,