Próbkowanie klastra

Próbkowanie klastra. Grupa dwunastu osób jest dzielona na pary, a następnie losowo wybierane są dwie pary.

W statystyce próbkowanie klastrów jest planem próbkowania stosowanym, gdy w populacji statystycznej widoczne są wzajemnie jednorodne , ale wewnętrznie heterogeniczne grupy . Jest często używany w badaniach marketingowych .

W tym planie pobierania próbek cała populacja jest dzielona na te grupy (zwane klastrami) i wybierana jest prosta próba losowa grup. Elementy w każdym klastrze są następnie próbkowane. Jeśli próbkowane są wszystkie elementy w każdym próbkowanym klastrze, jest to określane jako „jednoetapowy” plan próbkowania klastra. Jeśli w każdej z tych grup zostanie wybrana prosta losowa podpróba elementów, określa się to jako „dwuetapowy” plan próbkowania klastrów. Częstą motywacją do pobierania próbek klastrów jest zmniejszenie całkowitej liczby wywiadów i kosztów przy zachowaniu pożądanej dokładności. W przypadku próby o ustalonej wielkości oczekiwany błąd losowy jest mniejszy, gdy większość zmienności w populacji występuje wewnątrz grup, a nie między grupami.

Elementy klastra

W idealnym przypadku populacja w klastrze powinna być możliwie jak najbardziej heterogeniczna, ale klastry powinny być jednorodne. Każdy klaster powinien być reprezentacją całej populacji w małej skali. Klastry powinny wykluczać się wzajemnie i łącznie wyczerpujące. Technika losowego doboru próby jest następnie stosowana w odniesieniu do odpowiednich klastrów w celu wybrania klastrów do uwzględnienia w badaniu. W jednoetapowym próbkowaniu klastrów próbkowane są wszystkie elementy z każdego z wybranych klastrów. W dwuetapowym próbkowaniu skupień do elementów z każdego z wybranych skupień stosowana jest technika losowego doboru próby.

Główna różnica między próbkowaniem klastrów a próbkowaniem warstwowym polega na tym, że w próbkowaniu klastrów klaster jest traktowany jako jednostka losowania, więc losowanie odbywa się na populacji klastrów (przynajmniej w pierwszym etapie). W próbkowaniu warstwowym pobieranie próbek odbywa się na elementach w każdej warstwie. W doborze warstwowym losowana jest próba losowa z każdej z warstw, podczas gdy w doborze klastrów losowane są tylko wybrane klastry. Częstą motywacją do próbkowania klastrów jest obniżenie kosztów poprzez zwiększenie wydajności próbkowania. Kontrastuje to z próbkowaniem warstwowym, gdzie motywacją jest zwiększenie precyzji.

Istnieje również wieloetapowe próbkowanie klastrów , w którym wybierane są co najmniej dwa etapy wybierania elementów z klastrów.

Gdy klastry mają różne rozmiary

Bez modyfikowania szacowanego parametru próbkowanie klastrów jest bezstronne, gdy klastry są w przybliżeniu tej samej wielkości. W tym przypadku parametr jest obliczany przez połączenie wszystkich wybranych klastrów. Gdy klastry mają różne rozmiary, istnieje kilka opcji:

Jedną z metod jest próbkowanie klastrów, a następnie badanie wszystkich elementów w tym klastrze. Inną metodą jest metoda dwuetapowa polegająca na losowaniu ustalonej proporcji jednostek (5%, 50% lub innej liczby w zależności od kosztów) z każdego z wybranych klastrów. Poleganie na próbie pobranej z tych opcji da nieobciążony estymator. Jednak wielkość próby nie jest już ustalona z góry. Prowadzi to do bardziej skomplikowanego wzoru na błąd standardowy estymatora, a także problemów z optyką planu badania (ponieważ analiza mocy i szacowanie kosztów często odnoszą się do określonej wielkości próby).

Trzecim możliwym rozwiązaniem jest użycie prawdopodobieństwa proporcjonalnego do wielkości próbkowania . W tym planie losowania prawdopodobieństwo wybrania klastra jest proporcjonalne do jego wielkości, więc duży klaster ma większe prawdopodobieństwo wyboru niż mały klaster. Zaletą jest to, że gdy klastry są wybierane z prawdopodobieństwem proporcjonalnym do wielkości, w każdym próbowanym skupieniu należy przeprowadzić taką samą liczbę wywiadów, aby każda próbowana jednostka miała takie samo prawdopodobieństwo wyboru.

Zastosowania próbkowania klastrów

Przykładem próbkowania klastrów jest próbkowanie obszarów lub próbkowanie klastrów geograficznych. Każdy klaster to obszar geograficzny. Ponieważ badanie populacji rozproszonej geograficznie może być kosztowne, większą oszczędność niż zwykłe losowanie można osiągnąć, grupując kilku respondentów na obszarze lokalnym w klaster. Zwykle konieczne jest zwiększenie całkowitej wielkości próby, aby osiągnąć równoważną precyzję w estymatorach , ale oszczędności kosztów mogą sprawić, że takie zwiększenie wielkości próby będzie wykonalne.

Próbkowanie klastrów jest wykorzystywane do oszacowania wysokiej śmiertelności w przypadkach takich jak wojny , głód i klęski żywiołowe .

Korzyść

  • Może być tańszy niż inne plany pobierania próbek – np. mniejsze koszty podróży i koszty administracyjne.
  • Wykonalność: Ten plan pobierania próbek uwzględnia duże populacje. Ponieważ te grupy są tak duże, wdrożenie jakiegokolwiek innego planu pobierania próbek byłoby bardzo kosztowne.
  • Oszczędność: Regularne dwa główne problemy związane z wydatkami, tj. podróżowanie i wystawianie ofert, są znacznie zmniejszone w tej metodzie. Na przykład: Kompilacja informacji badawczych o każdym gospodarstwie domowym w mieście byłaby bardzo kosztowna, podczas gdy kompilacja informacji o różnych dzielnicach miasta byłaby bardziej ekonomiczna. Tutaj podróże i wysiłki związane z wystawianiem ofert zostaną znacznie ograniczone.
  • Zmniejszona zmienność: w rzadkich przypadkach ujemnej korelacji wewnątrzklasowej między podmiotami w ramach klastra, estymatory utworzone przez losowanie klastrowe dadzą dokładniejsze oszacowania niż dane uzyskane z prostej próby losowej (tj. efekt projektu będzie mniejszy niż 1). To nie jest częsty scenariusz.

Główne zastosowanie: gdy nie jest dostępny operat wszystkich elementów, możemy zastosować tylko próbkowanie skupień.

Niekorzyść

  • Wyższy błąd próbkowania , który można wyrazić efektem projektu: stosunkiem wariancji estymatora wykonanego z prób badania klastrowego do wariancji estymatora otrzymanego z próby podmiotów w równie wiarygodnym losowym badaniu bezklastrowym . Im większa korelacja wewnątrzklasowa między podmiotami w klastrze, tym gorszy staje się efekt projektu (tj. im większy wychodzi od 1. Wskazuje to na większy oczekiwany wzrost wariancji estymatora). Innymi słowy, im większa jest heterogeniczność między skupieniami i większa jednorodność między podmiotami w skupieniu, tym mniej dokładne stają się nasze estymatory. Wynika to z faktu, że w takich przypadkach lepiej jest pobierać próbki z jak największej liczby klastrów i zadowolić się małą próbą podmiotów z każdego skupienia (tj. dwuetapowe losowanie klastrów).
  • Złożoność. Próbkowanie skupień jest bardziej wyrafinowane i wymaga większej uwagi na to, jak planować i jak analizować (tj. brać pod uwagę wagi podmiotów podczas szacowania parametrów, przedziały ufności itp.)

Więcej o próbkowaniu klastrów

Dwustopniowe próbkowanie klastrów

Dwustopniowe próbkowanie klastrów, prosty przypadek próbkowania wieloetapowego , uzyskuje się poprzez wybranie próbek klastrów w pierwszym etapie, a następnie wybranie próbki elementów z każdego próbkowanego klastra. Rozważmy łącznie populację N klastrów. W pierwszym etapie wybiera się n klastrów przy użyciu zwykłej metody losowania klastrów. W drugim etapie zwykle stosuje się proste dobieranie losowe . Jest używany oddzielnie w każdym klastrze, a liczba elementów wybranych z różnych klastrów niekoniecznie jest równa. Całkowita liczba klastrów N , liczba wybranych klastrów n oraz liczba elementów z wybranych klastrów muszą być wcześniej określone przez projektanta ankiety. Dwuetapowy dobór klastrów ma na celu minimalizację kosztów badania i jednoczesną kontrolę niepewności związanej z interesującymi szacunkami. Metoda ta może być stosowana w naukach o zdrowiu i naukach społecznych. Na przykład naukowcy wykorzystali dwuetapowe pobieranie próbek w celu wygenerowania reprezentatywnej próby populacji irackiej w celu przeprowadzenia badań śmiertelności. Pobieranie próbek w tej metodzie może być szybsze i bardziej niezawodne niż innymi metodami, dlatego ta metoda jest obecnie często stosowana.

Wnioskowanie, gdy liczba skupień jest mała

Metody próbkowania klastrów mogą prowadzić do znacznych błędów podczas pracy z niewielką liczbą klastrów. Na przykład może być konieczne skupienie na poziomie stanu lub miasta jednostek, które mogą być małe i mieć ustaloną liczbę. Metody mikroekonometryczne dla danych panelowych często wykorzystują krótkie panele, co jest analogiczne do posiadania kilku obserwacji na klastry i wielu klastrów. Problem małych klastrów można postrzegać jako problem z parametrami incydentalnymi. Chociaż szacunki punktowe można dość dokładnie oszacować, jeśli liczba obserwacji na klaster jest wystarczająco wysoka, potrzebujemy liczby klastrów, aby asymptotyka zaczęła działać. klastrów jest niska, oszacowana macierz kowariancji może być obciążona w dół.

Niewielka liczba klastrów stanowi ryzyko, gdy występuje korelacja szeregowa lub korelacja wewnątrzklasowa, jak w kontekście Moultona. Mając kilka klastrów, mamy tendencję do niedoceniania korelacji szeregowej między obserwacjami, gdy pojawia się losowy szok, lub korelacji wewnątrzklasowej w ustawieniu Moultona. W kilku badaniach podkreślono konsekwencje korelacji szeregowej i zwrócono uwagę na problem małych klastrów.

W ramach czynnika Moultona intuicyjne wyjaśnienie problemu małych klastrów można wyprowadzić ze wzoru na czynnik Moultona. Załóżmy dla uproszczenia, że ​​liczba obserwacji na skupienie jest ustalona na n . Poniżej oznacza macierz kowariancji dostosowaną do grupowania, oznacza macierz kowariancji niedostosowaną do grupowania , a ρ oznacza korelację wewnątrzklasową:

Współczynnik po lewej stronie wskazuje, jak bardzo nieskorygowany scenariusz przeszacowuje precyzję. Dlatego wysoka liczba oznacza silne odchylenie w dół oszacowanej macierzy kowariancji. Mały problem z klastrami można interpretować jako duże n: gdy dane są ustalone, a liczba klastrów jest niska, liczba danych w klastrze może być wysoka. Wynika z tego, że wnioskowanie, gdy liczba skupień jest mała, nie będzie miało prawidłowego pokrycia.

Zaproponowano kilka rozwiązań problemu małych klastrów. Można użyć macierzy wariancji odpornej na klastry z korekcją odchyleń, dokonać korekt rozkładu T lub użyć metod ładowania początkowego z udoskonaleniami asymptotycznymi, takimi jak percentyl-t lub dziki sposób ładowania początkowego, które mogą prowadzić do ulepszonego wnioskowania o próbie skończonej. Cameron, Gelbach i Miller (2008) dostarczają mikrosymulacje dla różnych metod i odkrywają, że dziki bootstrap działa dobrze w obliczu niewielkiej liczby klastrów.

Zobacz też