Model bez napompowania
W statystyce model zawyżony zerem jest modelem statystycznym opartym na rozkładzie prawdopodobieństwa zawyżonym zerem , tj. rozkładem, który pozwala na częste obserwacje o wartości zerowej.
Wprowadzenie do modeli z zerowym napompowaniem
Modele zerowe są powszechnie stosowane w analizie danych liczbowych, takich jak liczba wizyt pacjenta na izbie przyjęć w ciągu jednego roku lub liczba ryb złowionych w ciągu jednego dnia w jednym jeziorze. Dane licznika mogą przyjmować wartości 0, 1, 2, … (nieujemne wartości całkowite). Inne przykłady danych zliczania to liczba trafień zarejestrowanych przez licznik Geigera w ciągu jednej minuty, dni pacjenta w szpitalu, bramki zdobyte w meczu piłki nożnej oraz liczba epizodów hipoglikemii rocznie u pacjenta z cukrzycą.
W przypadku analizy statystycznej rozkład zliczeń jest często przedstawiany za pomocą rozkładu Poissona lub ujemnego rozkładu dwumianowego . Hilbe zauważa, że „regresja Poissona jest tradycyjnie postrzegana jako podstawowy model zliczania, na którym opiera się wiele innych modeli zliczania”. W modelu Poissona „… zmienna losowa zliczania, a parametr ( ) jest średnią Często jest również nazywany parametrem szybkości lub intensywności… W literaturze statystycznej również wyrażany jako ) w odniesieniu do modeli Poissona i tradycyjnych ujemnych modeli dwumianowych
W niektórych danych liczba zer jest większa niż można by oczekiwać przy użyciu rozkładu Poissona lub ujemnego rozkładu dwumianowego . Dane z takim nadmiarem zliczeń są określane jako zawyżone zerem.
Przykładowe histogramy zawyżonych zerem rozkładów Poissona ze średnią i proporcją zerowej inflacji 0,2 lub 0,5 przedstawiono poniżej, na podstawie programu R ZeroInflPoiDistPlots.R z Bildera i Laughlina.
Przykłady danych liczbowych zawyżonych zerem
- Liczenie ryb „… załóżmy, że zapiszemy liczbę ryb złowionych na różnych jeziorach podczas 4-godzinnych wypraw wędkarskich do Minnesoty. Niektóre jeziora w Minnesocie są zbyt płytkie, aby ryby mogły przetrwać zimę, więc łowienie w tych jeziorach nie przyniesie połowu. Z drugiej strony, nawet na jeziorze, w którym jest dużo ryb, możemy złowić lub nie złowić żadnej ryby ze względu na warunki lub nasze własne kompetencje. Tak więc liczba złowionych ryb wyniesie zero, jeśli jezioro nie jest w stanie utrzymać ryb, i wyniesie zero, jeden lub więcej, jeśli tak jest”.
- Liczba usuniętych zębów mądrości. Liczba usuniętych zębów mądrości może wahać się od 0 do 4. Niektóre osoby, około jedna trzecia populacji, nie mają zębów mądrości. Dla tych osób liczba usuniętych zębów mądrości zawsze będzie równa zeru. W przypadku innych osób uzyskana liczba będzie mieścić się w przedziale od 0 do 4, gdzie 0 oznacza, że pacjent jeszcze nie miał i być może nigdy nie miał usuniętego żadnego z 4 zębów mądrości.
- Publikacje doktorantów. Long zbadał liczbę publikacji 915 doktorantów z biochemii w ostatnich trzech latach studiów doktoranckich. Odsetek kandydatów z zerowymi publikacjami przekroczył liczbę przewidzianą przez model Poissona. „Długi argumentował, że doktorantów można podzielić na dwie odrębne grupy: „wydawców” (być może dążących do kariery naukowej) i „niepublików” (poszukiwających innych ścieżek kariery). Jednym z rozsądnych wyjaśnień jest to, że zaobserwowane liczby zerowe odzwierciedlają mieszankę dwóch ukrytych klas – tych, które po prostu jeszcze nie opublikowały, i tych, które prawdopodobnie nigdy nie opublikują”.
Dane zawyżone do zera jako mieszanina dwóch rozkładów
Jak pokazują powyższe przykłady, dane zawyżone do zera mogą powstać jako mieszanina dwóch rozkładów. Pierwsza dystrybucja generuje zera. Drugi rozkład, który może być rozkładem Poissona , ujemnym rozkładem dwumianowym lub innym rozkładem zliczeniowym, generuje zliczenia, z których część może być zerami.”.
W literaturze statystycznej różni autorzy mogą używać różnych nazw, aby odróżnić zera od dwóch rozkładów. Niektórzy autorzy opisują zera wygenerowane przez pierwszą (binarną) dystrybucję jako „strukturalne”, a zera wygenerowane przez drugą (zliczeniową) dystrybucję jako „losowe”. Inni autorzy używają terminologii „odporny” i „podatny” dla zer binarnych i zliczonych odpowiednio
Zerowy napompowany Poissona
Jednym z dobrze znanych modeli z nadmuchem zerowym jest model Poissona z nadmuchem zerowym Diane Lambert , który dotyczy zdarzenia losowego zawierającego nadmiar danych zliczania zerowego w jednostce czasu. Na przykład liczba roszczeń ubezpieczeniowych w populacji dla określonego rodzaju ryzyka byłaby zawyżona do zera przez osoby, które nie wykupiły ubezpieczenia od ryzyka, a zatem nie mogą ubiegać się o odszkodowanie. Model Poissona z napompowanym zerem (ZIP) łączy dwa procesy generujące zero. Pierwszy proces generuje zera. Drugi proces podlega rozkładowi Poissona która generuje liczby, z których część może wynosić zero. Dystrybucja mieszaniny jest opisana w następujący sposób:
gdzie zmienna wynikowa dowolną nieujemną wartość całkowitą, jest oczekiwaną liczbą Poissona dla tej ; to prawdopodobieństwo dodatkowych zer.
Średnia to , a wariancja to .
Estymatory parametrów ZIP
Metoda estymatorów momentów jest dana przez
gdzie i jest wariancją
Estymator największej wiarygodności można znaleźć, rozwiązując następujące równanie
gdzie to obserwowana proporcja zer.
Rozwiązanie tego równania w postaci zamkniętej jest podane przez
gdzie jest główną gałęzią funkcji W Lamberta i
- }
Alternatywnie równanie można rozwiązać przez iterację.
Estymator największej wiarygodności dla jest podany przez
Powiązane modele
dwumianu ujemnego z nadmuchem zerowym (ZINB). Daniel B. Hall dostosował metodologię Lamberta do sytuacji zliczania z górną granicą, uzyskując w ten sposób model dwumianowy (ZIB) zawyżony od zera.
Dyskretny pseudozłożony model Poissona
Jeśli dane liczbowe są takie, że prawdopodobieństwo zera jest większe niż prawdopodobieństwo niezerowe, a mianowicie
wtedy dane dyskretne z dyskretnym pseudozłożonym rozkładem Poissona .
W rzeczywistości niech sol będzie funkcją generującą prawdopodobieństwo y . Jeśli , to . z twierdzenia Wienera Lévy'ego , ma generującą prawdopodobieństwo dyskretnego pseudozłożonego rozkładu
Mówimy, że dyskretna zmienna losowa funkcji generującej prawdopodobieństwo
ma dyskretny pseudozłożony rozkład Poissona z parametrami
Kiedy wszystkie są nieujemne, jest to dyskretny złożony rozkład Poissona przypadek inny niż Poissona) z właściwością .
Zobacz też
- Rozkład Poissona
- Rozkład Poissona obcięty do zera
- Złożony rozkład Poissona
- Rzadkie przybliżenie
- Model przeszkody