Dyspersja statystyczna
W statystyce dyspersja (zwana także zmiennością , rozrzutem lub rozrzutem ) to stopień, w jakim rozkład jest rozciągnięty lub ściśnięty. Typowymi przykładami miar rozproszenia statystycznego są wariancja , odchylenie standardowe i rozstęp międzykwartylowy . Na przykład, gdy wariancja danych w zbiorze jest duża, dane są bardzo rozproszone. Z drugiej strony, gdy wariancja jest mała, dane w zestawie są skupione.
Dyspersja jest przeciwstawiona lokalizacji lub tendencji centralnej i razem są to najczęściej używane właściwości rozkładów.
Środki
Miarą rozproszenia statystycznego jest nieujemna liczba rzeczywista , która wynosi zero, jeśli wszystkie dane są takie same i rośnie, gdy dane stają się bardziej zróżnicowane.
Większość miar dyspersji ma takie same jednostki jak mierzona wielkość . Innymi słowy, jeśli pomiary są w metrach lub sekundach, to samo dotyczy miary dyspersji. Przykłady miar dyspersji obejmują:
- Odchylenie standardowe
- Rozstęp międzykwartylowy (IQR)
- Zakres
- Średnia różnica bezwzględna (znana również jako średnia różnica bezwzględna Giniego)
- Mediana bezwzględnego odchylenia (MAD)
- Średnie odchylenie bezwzględne (lub po prostu nazywane odchyleniem średnim)
- Odchylenie standardowe odległości
Są one często używane (wraz ze współczynnikami skali ) jako estymatory parametrów skali , w którym to charakterze nazywane są oszacowaniami skali. Solidne miary skali to te, na które nie ma wpływu niewielka liczba wartości odstających , i obejmują IQR i MAD.
Wszystkie powyższe miary dyspersji statystycznej mają tę użyteczną właściwość, że są niezmienne w lokalizacji i mają liniową skalę . Oznacza to, że jeśli zmienna losowa ma dyspersję to liniowa naprawdę za i powinien mieć dyspersję gdzie jest wartością bezwzględną , to znaczy ignoruje poprzedzający znak ujemny -
Inne miary dyspersji są bezwymiarowe . Innymi słowy, nie mają jednostek, nawet jeśli sama zmienna ma jednostki. Obejmują one:
- Współczynnik zmienności
- Kwartylowy współczynnik dyspersji
- Względna średnia różnica równa dwukrotności współczynnika Giniego
- Entropia : Podczas gdy entropia zmiennej dyskretnej jest niezmienna w lokalizacji i niezależna od skali, a zatem nie jest miarą rozproszenia w powyższym sensie, entropia zmiennej ciągłej jest niezmienna w lokalizacji i addytywna w skali: Jeśli jest entropią zmiennej ciągłej z , a następnie .
Istnieją inne miary dyspersji:
- Wariancja (kwadrat odchylenia standardowego) - niezmienna w lokalizacji, ale nie liniowa w skali.
- Stosunek wariancji do średniej - najczęściej używany do danych liczbowych , gdy używany jest termin współczynnik dyspersji i gdy ten stosunek jest bezwymiarowy , ponieważ dane liczbowe same w sobie są bezwymiarowe, a nie inaczej.
Niektóre miary dyspersji mają specjalne cele. Wariancji Allana można użyć w zastosowaniach, w których szum zakłóca zbieżność. Wariancję Hadamarda można wykorzystać do przeciwdziałania czułości liniowego dryftu częstotliwości.
W przypadku zmiennych kategorycznych pomiar rozproszenia za pomocą pojedynczej liczby jest mniej powszechny; patrz zmienność jakościowa . Jedną miarą, która to robi, jest entropia dyskretna .
Źródła
W naukach fizycznych taka zmienność może wynikać z przypadkowych błędów pomiarowych: pomiary instrumentami często nie są idealnie precyzyjne , tj . Można założyć, że mierzona wielkość jest stabilna, a różnice między pomiarami wynikają z błędu obserwacyjnego . Układ dużej liczby cząstek charakteryzuje się średnimi wartościami stosunkowo niewielkiej liczby wielkości makroskopowych, takich jak temperatura, energia i gęstość. Odchylenie standardowe jest ważną miarą w teorii fluktuacji, która wyjaśnia wiele zjawisk fizycznych, w tym dlaczego niebo jest niebieskie.
W naukach biologicznych mierzona wielkość rzadko jest niezmienna i stabilna, a obserwowana zmienność może dodatkowo być nieodłącznym elementem tego zjawiska: może wynikać ze zmienności międzyosobniczej , to znaczy różnych członków populacji różniących się od siebie. Może to być również spowodowane zmiennością osobniczą , to znaczy, że jeden i ten sam pacjent różni się w testach wykonanych w różnym czasie lub w innych różnych warunkach. Tego rodzaju zmienność obserwuje się również na arenie wytwarzanych produktów; nawet tam skrupulatny naukowiec znajduje zróżnicowanie.
Częściowe uporządkowanie dyspersji
Rozpiętość zachowująca średnią (MPS) to zmiana z jednego rozkładu prawdopodobieństwa A na inny rozkład prawdopodobieństwa B, gdzie B jest tworzony przez rozłożenie jednej lub więcej części funkcji gęstości prawdopodobieństwa A przy pozostawieniu niezmienionej średniej (wartości oczekiwanej). Koncepcja rozrzutu zachowującego średnią zapewnia częściowe uporządkowanie rozkładów prawdopodobieństwa zgodnie z ich rozrzutem: z dwóch rozkładów prawdopodobieństwa jeden może zostać sklasyfikowany jako mający większe rozproszenie niż drugi lub alternatywnie żaden z nich nie może być sklasyfikowany jako mający większe rozproszenie.