Dystrybucja próbek

W statystyce rozkład próbkowania lub rozkład próby skończonej to rozkład prawdopodobieństwa danej statystyki opartej na próbie losowej . Jeśli arbitralnie duża liczba próbek, z których każda obejmuje wiele obserwacji (punktów danych), została użyta oddzielnie w celu obliczenia jednej wartości statystyki (takiej jak na przykład średnia próbki lub wariancja próbki ) dla każdej próbki, to rozkład próbkowania jest rozkładem prawdopodobieństwa wartości, które przyjmuje statystyka. W wielu kontekstach obserwuje się tylko jedną próbkę, ale rozkład próbkowania można znaleźć teoretycznie.

Rozkłady próbkowania są ważne w statystyce, ponieważ zapewniają znaczne uproszczenie na drodze do wnioskowania statystycznego . Mówiąc dokładniej, pozwalają one opierać rozważania analityczne na rozkładzie prawdopodobieństwa statystyki, a nie na łącznym rozkładzie prawdopodobieństwa wszystkich poszczególnych wartości próbek.

Wstęp

Rozkład próbkowania statystyki jest rozkładem tej statystyki, uważanej za zmienną losową , gdy pochodzi z losowej próby o rozmiarze . Można go rozpatrywać jako rozkład statystyki dla wszystkich możliwych prób z tej samej populacji o danej wielkości próby. Rozkład doboru próby zależy od podstawowego rozkładu populacji, rozważanej statystyki, zastosowanej procedury doboru próby oraz zastosowanej wielkości próby. Często istnieje duże zainteresowanie tym, czy rozkład próbkowania można przybliżyć za pomocą rozkład asymptotyczny , który odpowiada przypadku granicznemu albo jako liczba losowych próbek o skończonej wielkości, pobranych z nieskończonej populacji i użytych do uzyskania rozkładu, dąży do nieskończoności, albo gdy tylko jedna „próbka” o jednakowo nieskończonej wielkości jest pobierana tej samej populacji.

Rozważmy na przykład normalną populację ze średnią wariancją . Załóżmy wielokrotnie pobieramy próbki o danej wielkości z tej populacji i obliczamy średnią dla każdej próbki - ta statystyka nazywa się średnią z próby . Rozkład tych średnich lub średnich nazywany jest „rozkładem próbkowania średniej z próby”. Ten rozkład jest normalny ( n to wielkość próby), ponieważ podstawowa populacja jest normalna, chociaż rozkłady próbkowania mogą również często być zbliżony do normalnego, nawet jeśli rozkład populacji nie jest (patrz centralne twierdzenie graniczne ). Alternatywą dla średniej z próby jest mediana z próby . Obliczony na podstawie tej samej populacji ma inny rozkład próbkowania niż średnia i generalnie nie jest normalny (ale może być zbliżony w przypadku dużych próbek).

Średnia próbki z populacji o rozkładzie normalnym jest przykładem prostej statystyki zaczerpniętej z jednej z najprostszych populacji statystycznych . W przypadku innych statystyk i innych populacji formuły są bardziej skomplikowane i często nie istnieją w formie zamkniętej . W takich przypadkach rozkłady próbkowania można przybliżyć za pomocą symulacji Monte-Carlo , metod ładowania początkowego lub teorii rozkładu asymptotycznego .

Standardowy błąd

Odchylenie standardowe rozkładu próby statystyki jest określane jako błąd standardowy tej wielkości. W przypadku, gdy statystyka jest średnią próbki, a próbki są nieskorelowane, błąd standardowy wynosi:

gdzie jest standardowym rozkładu populacji tej wielkości, a (liczbą elementów w próbie)

Ważną konsekwencją tego wzoru jest to, że wielkość próby musi zostać czterokrotnie (pomnożona przez 4), aby osiągnąć połowę (1/2) błędu pomiaru. Podczas projektowania badań statystycznych, w których czynnikiem jest koszt, może to odgrywać rolę w zrozumieniu kompromisów między kosztami a korzyściami.

W przypadku, gdy statystyka jest sumą próbek, a próbki są nieskorelowane, błąd standardowy wynosi:

gdzie ponownie standardowym rozkładu populacji tej wielkości, a próbie).

Przykłady

Populacja Statystyczny Dystrybucja próbek
normalny : Próbka średnia z próbek o rozmiarze n . .

Jeśli odchylenie standardowe jest znane, można rozważyć , który jest zgodny z rozkładem t Studenta ze stopniami swobody Tutaj jest a wielkością kluczową , której rozkład nie zależy od .

Bernoulli : Przykładowy odsetek „udanych prób”
Dwie niezależne populacje normalne:

i

Różnica między średnimi próbki,
Dowolny absolutnie ciągły rozkład F o gęstości f Mediana z próbki o rozmiarze n = 2 k - 1, gdzie próbka jest uporządkowana do
Dowolna dystrybucja z funkcją dystrybucji F Maksymalnie z losowej próbki o rozmiarze n

Linki zewnętrzne