Opisowe statystyki
Część serii o |
badaniach |
---|
Portal filozoficzny |
Statystyka opisowa (w sensie rzeczownika liczącego ) to statystyka podsumowująca , która ilościowo opisuje lub podsumowuje cechy ze zbioru informacji , podczas gdy statystyka opisowa (w znaczeniu rzeczownika masowego ) to proces wykorzystywania i analizowania tych statystyk. Statystyka opisowa różni się od statystyki wnioskowania (lub statystyki indukcyjnej) tym, że jej celem jest podsumowanie próby , a nie wykorzystanie danych do poznania populacji , którą ma reprezentować próbka danych. Ogólnie oznacza to, że statystyka opisowa, w przeciwieństwie do statystyki inferencyjnej, nie jest opracowywana na podstawie teorii prawdopodobieństwa i często jest statystyką nieparametryczną . Nawet jeśli analiza danych wyciąga główne wnioski za pomocą statystyki wnioskowania, zazwyczaj przedstawia się również statystyki opisowe. Na przykład w artykułach dotyczących ludzi zwykle dołącza się tabelę podającą ogólną wielkość próby , wielkość próby w ważnych podgrupach (np. dla każdej grupy leczenia lub narażenia) oraz cechy demograficzne lub kliniczne, takie jak średni wiek, odsetek pacjentów każdej płci, odsetek pacjentów ze współistniejącymi chorobami itp.
Niektóre miary, które są powszechnie używane do opisu zbioru danych, to miary tendencji centralnej oraz miary zmienności lub rozproszenia . Miary tendencji centralnej obejmują średnią , medianę i modę , natomiast miary zmienności obejmują odchylenie standardowe (lub wariancję ), minimalne i maksymalne wartości zmiennych, kurtozę i skośność .
Zastosowanie w analizie statystycznej
Statystyki opisowe dostarczają prostych podsumowań dotyczących próby i poczynionych obserwacji. Takie podsumowania mogą mieć postać ilościową , tj. zbiorcze statystyki , lub wizualne, tj. proste do zrozumienia wykresy. Podsumowania te mogą albo stanowić podstawę wstępnego opisu danych w ramach szerszej analizy statystycznej, albo same w sobie mogą być wystarczające do konkretnego badania.
procent rzutów w koszykówce to statystyka opisowa, która podsumowuje wyniki zawodnika lub zespołu. Ta liczba to liczba oddanych strzałów podzielona przez liczbę oddanych strzałów. Na przykład gracz, który strzela w 33%, oddaje mniej więcej jeden strzał na trzy. Wartość procentowa podsumowuje lub opisuje wiele odrębnych zdarzeń. Weź również pod uwagę średnią ocen . Ta pojedyncza liczba opisuje ogólne wyniki ucznia w całym zakresie jego doświadczeń kursowych.
Wykorzystanie statystyki opisowej i sumarycznej ma bogatą historię i rzeczywiście, proste zestawienie populacji i danych ekonomicznych było pierwszym sposobem, w jaki pojawił się temat statystyki . Niedawno pod nazwą eksploracyjnej analizy danych sformułowano zbiór technik podsumowujących : przykładem takiej techniki jest wykres pudełkowy .
W świecie biznesu statystyki opisowe dostarczają użytecznych podsumowań wielu rodzajów danych. Na przykład inwestorzy i brokerzy mogą korzystać z historycznego rachunku zachowania zwrotów, przeprowadzając empiryczne i analityczne analizy swoich inwestycji w celu podejmowania lepszych decyzji inwestycyjnych w przyszłości.
W analizie jednoczynnikowej
Analiza jednoczynnikowa obejmuje opisanie rozkładu pojedynczej zmiennej, w tym jej tendencji centralnej (w tym średniej , mediany i trybu ) oraz rozproszenia (w tym zakresu i kwartyli zbioru danych oraz miar rozrzutu, takich jak wariancja i odchylenie standardowe ). ). Kształt rozkładu można również opisać za pomocą wskaźników, takich jak skośność i kurtoza . Charakterystykę rozkładu zmiennej można również przedstawić w formie graficznej lub tabelarycznej, w tym histogramów i wyświetlania łodygi i liścia .
Analiza dwuwymiarowa i wielowymiarowa
Gdy próba składa się z więcej niż jednej zmiennej, do opisania relacji między parami zmiennych można zastosować statystyki opisowe. W tym przypadku statystyki opisowe obejmują:
- krzyżowe i tablice kontyngencji
- Graficzna reprezentacja za pomocą wykresów rozrzutu
- Ilościowe miary zależności
- Opisy rozkładów warunkowych
Głównym powodem rozróżnienia analizy jednowymiarowej i dwuwymiarowej jest to, że analiza dwuwymiarowa jest nie tylko prostą analizą opisową, ale także opisuje związek między dwiema różnymi zmiennymi. Ilościowe miary zależności obejmują korelację (taką jak r Pearsona , gdy obie zmienne są ciągłe, lub rho Spearmana, jeśli jedna lub obie nie są) i kowariancję (która odzwierciedla zmienne skali, na których mierzone są zmienne). Nachylenie w analizie regresji odzwierciedla również związek między zmiennymi. Nachylenie niestandaryzowane wskazuje zmianę jednostkową zmiennej kryterium dla zmiany predyktora o jednostkę . Standaryzowane nachylenie wskazuje tę zmianę w jednostkach standaryzowanych ( z-score ). Wysoce skośne dane są często przekształcane za pomocą logarytmów. Zastosowanie logarytmów sprawia, że wykresy są bardziej symetryczne i bardziej przypominają rozkład normalny , co ułatwia ich intuicyjną interpretację.
Linki zewnętrzne
- Statystyka opisowa Wykład: University of Pittsburgh Supercourse: http://www.pitt.edu/~super1/lecture/lec0421/index.htm