Nadmierna dyspersja

W statystyce nadmierna dyspersja to obecność większej zmienności ( rozrzutu statystycznego ) w zbiorze danych , niż można by oczekiwać na podstawie danego modelu statystycznego .

Częstym zadaniem w statystyce stosowanej jest wybór modelu parametrycznego , który będzie pasował do danego zestawu obserwacji empirycznych. Wymaga to oceny dopasowania wybranego modelu. Zwykle możliwe jest dobranie parametrów modelu w taki sposób, aby teoretyczna średnia populacji modelu była w przybliżeniu równa średniej z próby . Jednak, zwłaszcza w przypadku prostych modeli z niewielką liczbą parametrów, przewidywania teoretyczne mogą nie odpowiadać obserwacjom empirycznym dla wyższych momentów . Kiedy obserwowana wariancja jest wyższa niż wariancja modelu teoretycznego, wystąpiła nadmierna dyspersja . I odwrotnie, niedostateczna dyspersja oznacza, że zmienność danych była mniejsza niż przewidywano. Nadmierna dyspersja jest bardzo powszechną cechą stosowanej analizy danych, ponieważ w praktyce populacje są często heterogeniczne (niejednolite) wbrew założeniom zawartym w szeroko stosowanych prostych modelach parametrycznych.

Przykłady

Poissona

Nadmierna dyspersja jest często spotykana podczas dopasowywania bardzo prostych modeli parametrycznych, takich jak te oparte na rozkładzie Poissona . Rozkład Poissona ma jeden wolny parametr i nie pozwala na dostosowanie wariancji niezależnie od średniej. Wybór rozkładu z rodziny Poissona jest często podyktowany charakterem danych empirycznych. Na przykład regresji Poissona jest powszechnie stosowana do modelowania danych liczbowych . Jeśli nadmierna dyspersja jest cechą, alternatywny model z dodatkowymi wolnymi parametrami może zapewnić lepsze dopasowanie. W przypadku danych liczbowych, model mieszaniny Poissona zamiast tego można zaproponować ujemny rozkład dwumianowy , w którym średnią rozkładu Poissona można traktować jako zmienną losową pobraną - w tym przypadku - z rozkładu gamma, wprowadzając w ten sposób dodatkowy wolny parametr (zwróć uwagę na wynikowy ujemny rozkład dwumianowy jest całkowicie scharakteryzowany przez dwa parametry).

Dwumianowy

Jako bardziej konkretny przykład zaobserwowano, że liczba chłopców urodzonych w rodzinach nie odpowiada wiernie rozkładowi dwumianowemu , jak można by się spodziewać. ^{[ potrzebne źródło ]} Zamiast tego proporcje płci w rodzinach wydają się pochylać w kierunku chłopców lub dziewcząt (patrz na przykład hipoteza Triversa-Willarda dla jednego możliwego wyjaśnienia), tj. jest więcej rodzin składających się wyłącznie z chłopców, więcej rodzin składających się wyłącznie z dziewcząt i niewystarczająca liczba rodzin zbliżonych do populacji średni stosunek liczby chłopców do dziewcząt wynoszący 51:49, niż oczekiwano na podstawie rozkładu dwumianowego, a wynikająca z tego wariancja empiryczna wynosi większy niż określony przez model dwumianowy.

W tym przypadku rozkład modelu beta-dwumianowego jest popularnym i wykonalnym analitycznie modelem alternatywnym dla rozkładu dwumianowego, ponieważ zapewnia lepsze dopasowanie do obserwowanych danych. Aby uchwycić heterogeniczność rodzin, można pomyśleć, że parametr prawdopodobieństwa modelu dwumianowego (powiedzmy, prawdopodobieństwo bycia chłopcem) jest sam w sobie zmienną losową (tj. modelem efektów losowych) narysowaną dla każdej rodziny z rozkładu beta jako mieszanie dystrybucja. Otrzymany rozkład związku (beta-dwumianowy) ma dodatkowy wolny parametr.

Inny powszechny model nadmiernej dyspersji — gdy niektóre obserwacje nie są obserwacjami Bernoulliego — wynika z wprowadzenia normalnej zmiennej losowej do modelu logistycznego . Oprogramowanie do dopasowania tego typu modelu wielopoziomowego jest powszechnie dostępne . W tym przypadku, jeśli wariancja zmiennej normalnej wynosi zero, model redukuje się do standardowej (nierozproszonej) regresji logistycznej . Model ten posiada dodatkowy wolny parametr, a mianowicie wariancję zmiennej normalnej.

W odniesieniu do dwumianowych zmiennych losowych koncepcja nadmiernej dyspersji ma sens tylko wtedy, gdy n>1 (tj. nadmierna dyspersja jest bezsensowna dla zmiennych losowych Bernoulliego).

Normalna dystrybucja

Ponieważ rozkład normalny (Gaussa) ma wariancję jako parametr, wszelkie dane o skończonej wariancji (w tym dowolne dane skończone) można modelować za pomocą rozkładu normalnego z dokładną wariancją - rozkład normalny jest modelem dwuparametrowym, ze średnią i wariancją . Tak więc, przy braku podstawowego modelu, nie ma pojęcia, że dane są nadmiernie rozproszone w stosunku do modelu normalnego, chociaż dopasowanie może być słabe pod innymi względami (takimi jak większe momenty skośne , kurtoza itp.). Jednak w przypadku, gdy dane są modelowane za pomocą rozkładu normalnego z oczekiwaną zmiennością, mogą być nadmiernie lub niedostatecznie rozproszone w stosunku do tej prognozy.

Na przykład w badaniu statystycznym margines błędu (określony na podstawie wielkości próby) przewiduje błąd próbkowania , a tym samym rozrzut wyników w powtarzanych badaniach. Jeśli przeprowadza się metaanalizę powtarzanych badań ustalonej populacji (powiedzmy przy danej wielkości próby, więc margines błędu jest taki sam), oczekuje się, że wyniki przypadną do rozkładu normalnego z odchyleniem standardowym równym marginesowi błędu. Jednak w przypadku heterogeniczności badań , w przypadku których badania mają różną stronniczość doboru próby , rozkład jest zamiast tego a dystrybucji złożonej i będzie nadmiernie dystrybuowana w stosunku do dystrybucji przewidywanej. Na przykład, biorąc pod uwagę powtarzane sondaże , wszystkie z marginesem błędu 3%, jeśli są przeprowadzane przez różne organizacje sondażowe, oczekuje się, że wyniki będą miały odchylenie standardowe większe niż 3%, ze względu na stronniczość ankieterów wynikającą z różnych metodologii.

Różnice terminologiczne między dyscyplinami

Naddyspersja i niedodyspersja to terminy, które przyjęły się w gałęziach nauk biologicznych . W parazytologii termin „nadmierna dyspersja” jest ogólnie używany w zdefiniowanym tutaj znaczeniu – oznacza rozkład o większej niż oczekiwano wariancji.

w niektórych obszarach ekologii znaczenia zostały przetransponowane, tak że nadmierna dyspersja jest w rzeczywistości traktowana jako bardziej równomierna (niższa wariancja) niż oczekiwano. To zamieszanie spowodowało, że niektórzy ekologowie zasugerowali, że terminy „zagregowane” lub „zaraźliwe” byłyby lepiej stosowane w ekologii dla określenia „nadmiernie rozproszone”. Takie preferencje wkradają się także do parazytologii . Generalnie ta sugestia nie została uwzględniona, aw literaturze panuje zamieszanie.

Ponadto w demografii nadmierna dyspersja jest często widoczna w analizie danych dotyczących liczby zgonów, ale demografowie preferują termin „ nieobserwowana heterogeniczność ”.

Zobacz też