Jednowymiarowa (statystyka)

Jednowymiarowy to termin powszechnie używany w statystyce do opisania typu danych, który składa się z obserwacji tylko jednej cechy lub atrybutu. Prostym przykładem danych jednowymiarowych byłyby wynagrodzenia pracowników w przemyśle. Podobnie jak wszystkie inne dane, dane jednowymiarowe można wizualizować za pomocą wykresów, obrazów lub innych narzędzi analitycznych po zmierzeniu, zebraniu, zgłoszeniu i analizie danych.

Jednowymiarowe typy danych

Niektóre dane jednowymiarowe składają się z liczb (np. wzrost 65 cali lub waga 100 funtów), podczas gdy inne są nieliczbowe (np. kolor oczu brązowy lub niebieski). Ogólnie rzecz biorąc, terminy kategoryczne dane jednowymiarowe i numeryczne dane jednowymiarowe są używane do rozróżnienia tych typów.

Kategoryczne dane jednowymiarowe

obserwacji nieliczbowych , które można umieścić w kategoriach. Zawiera etykiety lub nazwy używane do identyfikacji atrybutu każdego elementu. Kategoryczne dane jednowymiarowe zwykle używają nominalnej lub porządkowej skali pomiaru .

Numeryczne dane jednowymiarowe

Jednowymiarowe dane liczbowe składają się z obserwacji, które są liczbami. Uzyskuje się je za pomocą skali pomiarowej przedziałowej lub ilorazowej . Ten typ danych jednowymiarowych można jeszcze bardziej podzielić na dwie podkategorie: dyskretne i ciągłe . Liczbowe dane jednowymiarowe są dyskretne, jeśli zbiór wszystkich możliwych wartości jest skończony lub policzalnie nieskończony . Dyskretne dane jednowymiarowe są zwykle związane z liczeniem (takie jak liczba książek przeczytanych przez osobę). Liczbowe dane jednowymiarowe są ciągłe, jeśli zbiór wszystkich możliwych wartości jest przedziałem liczb. Ciągłe dane jednowymiarowe są zwykle kojarzone z pomiarami (takimi jak waga ludzi).

Analiza danych i aplikacje

Analiza jednowymiarowa jest najprostszą formą analizy danych. Uni oznacza „jeden”, więc dane mają tylko jedną zmienną ( univariate ). Dane jednowymiarowe wymagają osobnej analizy każdej zmiennej . Dane są zbierane w celu udzielenia odpowiedzi na pytanie, a dokładniej na pytanie badawcze. Dane jednowymiarowe nie odpowiadają na pytania badawcze dotyczące relacji między zmiennymi, ale raczej służą do opisu jednej cechy lub atrybutu, który różni się w zależności od obserwacji. Zwykle istnieją dwa cele, których badacz może szukać. Pierwszym z nich jest odpowiedź na pytanie badawcze za pomocą badania opisowego, a drugim uzyskanie wiedzy o tym, jak to zrobić atrybut zmienia się wraz z indywidualnym efektem zmiennej w analizie regresji . Istnieje kilka sposobów opisywania wzorców znalezionych w danych jednowymiarowych, które obejmują metody graficzne, miary tendencji centralnej i miary zmienności.

Podobnie jak inne formy statystyk, może to być wnioskowanie lub opis . Kluczowym faktem jest to, że zaangażowana jest tylko jedna zmienna.

Analiza jednowymiarowa może dawać mylące wyniki w przypadkach, w których analiza wielowymiarowa jest bardziej odpowiednia.

Miary tendencji centralnej

Tendencja centralna jest jedną z najczęstszych liczbowych miar opisowych. Służy do oszacowania centralnej lokalizacji danych jednowymiarowych przez obliczenie średniej , mediany i trybu . Każde z tych obliczeń ma swoje zalety i ograniczenia. Średnia ma tę zaletę, że jej obliczenie obejmuje każdą wartość zbioru danych, ale jest szczególnie podatna na wpływ wartości odstających . Mediana jest lepszą miarą, gdy zbiór danych zawiera wartości odstające . Tryb jest łatwy do zlokalizowania. Ważną rzeczą jest to, że nie ogranicza się to do używania tylko jednej z tych miar tendencji centralnej. Jeśli analizowane dane są kategoryczne, wówczas jedyną miarą tendencji centralnej, jaką można zastosować, jest tryb. Jeśli jednak dane mają charakter liczbowy ( porządek lub przedział / współczynnik ), wówczas do opisu danych można użyć trybu, mediany lub średniej. Zastosowanie więcej niż jednej z tych miar zapewnia dokładniejsze opisowe podsumowanie tendencji centralnej dla jednej zmiennej.

Miary zmienności

Miara zmienności lub rozproszenia (odchylenie od średniej) jednowymiarowego zestawu danych może lepiej ujawnić kształt jednowymiarowego rozkładu danych. Dostarczy pewnych informacji na temat różnic między wartościami danych. Miary zmienności wraz z miarami tendencji centralnej dają lepszy obraz danych niż same miary tendencji centralnej. Trzy najczęściej stosowane miary zmienności to rozstęp , wariancja i odchylenie standardowe . Odpowiedniość każdej miary zależałaby od rodzaju danych, kształtu rozkładu danych i stosowanej miary tendencji centralnej. Jeśli dane są kategoryczne, nie ma żadnej miary zmienności do zgłoszenia. W przypadku danych liczbowych możliwe są wszystkie trzy miary. Jeżeli rozkład danych jest symetryczny, to miarami zmienności są zazwyczaj wariancja i odchylenie standardowe. Jeśli jednak dane są skośne , to miarą zmienności, która byłaby odpowiednia dla tego zestawu danych, jest rozstęp.

Metody opisowe

Statystyki opisowe opisują próbę lub populację. Mogą być częścią eksploracyjnej analizy danych .

Odpowiednia statystyka zależy od poziomu pomiaru . W przypadku zmiennych nominalnych wystarczająca jest tabela częstości i lista modów . Dla zmiennych porządkowych medianę można obliczyć jako miarę tendencji centralnej , a rozstęp (i jego odmiany) jako miarę rozproszenia. W przypadku zmiennych na poziomie przedziału średnia arytmetyczna (średnia) i odchylenie standardowe są dodawane do zestawu narzędzi, a w przypadku zmiennych na poziomie ilorazu dodajemy średnią geometryczną i średnia harmoniczna jako miara tendencji centralnej oraz współczynnik zmienności jako miara dyspersji.

skośność i kurtozę zmiennej .

Metody wnioskowania

Metody wnioskowania pozwalają nam wnioskować z próby do populacji. W przypadku zmiennej nominalnej jednokierunkowy test chi-kwadrat (dobroci dopasowania) może pomóc określić, czy nasza próba pasuje do tej z jakiejś populacji. W przypadku danych na poziomie interwału i ilorazu test t dla jednej próbki pozwala nam wywnioskować, czy średnia w naszej próbie odpowiada jakiejś proponowanej liczbie (zwykle 0). Inne dostępne testy lokalizacji obejmują test znaku na jednej próbie i test rangi znaku Wilcoxona .

Metody graficzne

Najczęściej używane ilustracje graficzne dla danych jednowymiarowych to:

Tabele rozkładu częstotliwości

Częstotliwość to liczba wystąpień danej liczby. Częstotliwość obserwacji w statystyce mówi nam, ile razy obserwacja występuje w danych. Na przykład na poniższej liście liczb { 1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9 } częstotliwość liczby 9 to 5 (ponieważ występuje 5 razy w tym zbiorze danych).

Wykresy słupkowe

To jest przykład wykresu słupkowego.

Wykres słupkowy to wykres składający się z prostokątnych słupków. Słupki te w rzeczywistości przedstawiają liczbę lub procent obserwacji istniejących kategorii w zmiennej. Długość lub wysokość słupków stanowi wizualną reprezentację proporcjonalnych różnic między kategoriami.

Histogramy

histogram

Histogramy służą do oszacowania rozkładu danych, z częstotliwością wartości przypisaną do zakresu wartości zwanego przedziałem .

Wykresy kołowe

Wykres kołowy to koło podzielone na części, które reprezentują względne częstości lub wartości procentowe populacji lub próby należącej do różnych kategorii.

Rozkłady jednowymiarowe

Rozkład jednowymiarowy to rodzaj rozproszenia pojedynczej zmiennej losowej opisanej funkcją masy prawdopodobieństwa (pmf) dla dyskretnego rozkładu prawdopodobieństwa lub funkcją gęstości prawdopodobieństwa (pdf) dla ciągłego rozkładu prawdopodobieństwa . Nie należy go mylić z dystrybucją wielowymiarową .

Wspólne dystrybucje dyskretne








Rozkład równomierny (dyskretny) Rozkład Bernoulliego Rozkład dwumianowy Rozkład geometryczny Ujemny rozkład dwumianowy Rozkład Poissona Rozkład hipergeometryczny Rozkład Zeta

Typowe rozkłady ciągłe







Rozkład równomierny (ciągły) Rozkład normalny Rozkład gamma Rozkład wykładniczy Rozkład Weibulla Rozkład Cauchy'ego Rozkład beta

Zobacz też

  1. ^   Kachigan, Sam Kash (1986). Analiza statystyczna: interdyscyplinarne wprowadzenie do metod jednowymiarowych i wielowymiarowych . Nowy Jork: Radius Press. ISBN 0-942154-99-1 .
  2. ^   Lacke, Prem S. Mann; z pomocą Christophera Jaya (2010). Statystyki wprowadzające (wyd. 7). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5 .
  3. ^   Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. Statistics For Business & Economics (wydanie dziesiąte). Nauka Cengage'a. P. 1018. ISBN 978-0-324-80926-8 .
  4. ^   Lacke, Prem S. Mann; z pomocą Christophera Jaya (2010). Statystyki wprowadzające (wyd. 7). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5 .
  5. ^ „Analiza jednowymiarowa” . statua .
  6. ^ „Dane jednowymiarowe” . nauka.com .
  7. Bibliografia _ „Statystyki opisowe” . Internetowe Centrum Metod Badań Społecznych . Źródło 15 lutego 2017 r .
  8. ^   Stepański, Norma O'Rourke, Larry Hatcher, Edward J. (2005). Podejście krok po kroku do korzystania z SAS do statystyk jednowymiarowych i wielowymiarowych (wyd. 2). Nowy Jork: Wiley-Interscience. ISBN 1-59047-417-1 .
  9. ^   Longnecker, R. Lyman Ott, Michael (2009). Wprowadzenie do metod statystycznych i analizy danych (wyd. 6, wyd. Międzynarodowe). Pacific Grove, Kalifornia: Brooks/Cole. ISBN 978-0-495-10914-3 .
  10. ^   Meloun, Mediolan; Militky, Jiri (2011). Analiza danych statystycznych Praktyczny przewodnik . New Delhi: Woodhead Pub Ltd. ISBN 978-0-85709-109-3 .
  11. ^   Purves, David Freedman; Roberta Pisaniego; Rogera (2007). Statystyka (wyd. 4). Nowy Jork [ua]: Norton. ISBN 978-0-393-92972-0 .
  12. ^   Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. Statistics For Business & Economics (wydanie dziesiąte). Nauka Cengage'a. P. 1018. ISBN 978-0-324-80926-8 .
  13. ^ ab Everitt   , Brian (1998). Cambridge Dictionary of Statistics . Cambridge, Wielka Brytania Nowy Jork: Cambridge University Press. ISBN 0521593468 .
  14. ^ „Jednokierunkowe chi-kwadrat” .
  15. ^   Diez, David M.; Barr, Christopher D.; Çetinkaya-Rundel, Mine (2015). Statystyki OpenIntro (wyd. 3). OpenIntro, Inc. str. 30. ISBN 978-1-9434-5003-9 .
  16. ^   Samaniego, Francisco J. (2014). Modelowanie stochastyczne i statystyka matematyczna: tekst dla statystyków i naukowców ilościowych . Boca Raton: CRC Press. P. 167. ISBN 978-1-4665-6046-8 .