Ponowne próbkowanie scyzoryka
W statystyce scyzoryk (walidacja krzyżowa scyzoryka) jest techniką walidacji krzyżowej , a zatem formą ponownego próbkowania . Jest to szczególnie przydatne do obciążenia i wariancji . Jackknife poprzedza inne popularne metody ponownego próbkowania, takie jak bootstrap . Biorąc pod uwagę próbkę o rozmiarze estymator scyzoryka można zbudować, agregując oszacowania parametrów z każdej podpróbki o uzyskane przez pominięcie jednej obserwacji.
Technika scyzoryka została opracowana przez Maurice'a Quenouille'a (1924–1973) od 1949 r. I udoskonalona w 1956 r. John Tukey rozwinął tę technikę w 1958 r. I zaproponował nazwę „scyzoryk”, ponieważ podobnie jak fizyczny scyzoryk (kompaktowy nóż składany), jest to zgrubne i gotowe narzędzie, które może zaimprowizować rozwiązanie różnych problemów, nawet jeśli konkretne problemy można skuteczniej rozwiązać za pomocą specjalnie zaprojektowanego narzędzia.
Nóż pneumatyczny jest liniowym przybliżeniem metody bootstrap .
Prosty przykład: średnie oszacowanie
Estymator parametru typu scyzoryk znajduje się poprzez systematyczne pomijanie każdej obserwacji ze zbioru danych i obliczanie oszacowania parametru na podstawie pozostałych obserwacji, a następnie agregowanie tych obliczeń.
Na przykład, jeśli parametrem do oszacowania jest średnia populacji zmiennej losowej dla danego zestawu obserwacji iid średnia próbki:
gdzie ostatnia suma użyła innego sposobu wskazania, że indeks przez zbiór .
Następnie postępujemy w następujący sposób: Dla każdego obliczamy średnią podpróbka scyzoryka składająca się ze wszystkich oprócz punktu danych i nazywa się to -tą repliką scyzoryka:
Pomocne może być myślenie, że te replikują przybliżenie rozkładu średniej próbki i im większe, lepsze to będzie. W końcu, aby uzyskać estymator scyzoryka, bierzemy średnią z nich replikuje scyzoryk:
Można zapytać o stronniczość i wariancję . Z definicji powtórzeń scyzoryka można spróbować obliczyć jawnie, a odchylenie jest trywialnym obliczeniem ale wariancja jest bardziej zaangażowany, ponieważ repliki scyzoryka nie są niezależne.
W szczególnym przypadku średniej można wyraźnie pokazać, że oszacowanie scyzoryka jest równe zwykłemu oszacowaniu:
To ustala tożsamość . Następnie biorąc pod uwagę oczekiwania, mi , więc , biorąc wariancję, otrzymujemy . Jednak te właściwości na ogół nie obowiązują dla innych parametrów niż średnia.
Ten prosty przykład dla przypadku estymacji średniej ma jedynie zilustrować konstrukcję estymatora scyzoryka, podczas gdy prawdziwe subtelności (i użyteczność) wyłaniają się w przypadku estymacji innych parametrów, takich jak momenty wyższe od średniej lub inne funkcjonały dystrybucja.
Zauważ, że można do skonstruowania empirycznego oszacowania odchylenia mianowicie z pewnym odpowiednim współczynnikiem przypadku wiemy, że , więc ta konstrukcja nie dodaje żadnej znaczącej wiedzy, ale uspokajające jest odnotowanie, że daje prawidłowe oszacowanie obciążenia (które wynosi zero).
Oszacowanie wariancji scyzoryka obliczyć na podstawie wariancji powtórzeń scyzoryka :
Lewa równość definiuje estymator } słuszna równość to tożsamość, którą można bezpośrednio zweryfikować. Następnie biorąc oczekiwania, otrzymujemy , więc jest to nieobciążony estymator wariancji .
Szacowanie obciążenia estymatora
Technika scyzoryka może być wykorzystana do oszacowania (i skorygowania) odchylenia estymatora obliczonego dla całej próbki.
Załóżmy będącym przedmiotem zainteresowania jest pewien funkcjonał . Na podstawie skończonego zbioru obserwacji co zakłada się, że składa się z iid kopii estymatora , estymator jest skonstruowany:
Wartość zależy od , więc ta wartość będzie się zmieniać z jednej losowej próbki na
Z definicji odchylenie jest następujące:
Można chcieć obliczyć kilka wartości z i uśrednić je, aby obliczyć przybliżenie empiryczne mi , ale jest to niemożliwe, gdy nie ma „innych próbek”, gdy cały zbiór dostępnych obserwacji został użyty do obliczenia . W takiej sytuacji pomocna może być technika ponownego próbkowania scyzoryka.
Konstruujemy repliki scyzoryka:
gdzie każde powtórzenie jest oszacowaniem typu „pomiń jedno” na podstawie podpróby scyzoryka składającej się ze wszystkich punktów danych z wyjątkiem jednego:
Następnie określamy ich średnią:
Oszacowanie odchylenia scyzorykiem jest podane przez:
a wynikowe oszacowanie scyzoryka z korekcją odchylenia jest podane przez:
Usuwa to odchylenie w szczególnym przypadku, gdy odchylenie wynosi i zmniejsza je do w innych przypadkach.
Szacowanie wariancji estymatora
Technikę scyzoryka można również wykorzystać do oszacowania wariancji estymatora obliczonego na całej próbie.
Zobacz też
Literatura
- Berger, YG (2007). „Estymator wariancji scyzoryka dla jednoetapowych warstwowych próbek o nierównych prawdopodobieństwach”. Biometria . 94 (4): 953–964. doi : 10.1093/biomet/asm072 .
- Berger, YG; Rao, JNK (2006). „Skorygowany scyzoryk do przypisania przy próbkowaniu z nierównym prawdopodobieństwem bez wymiany”. Dziennik Królewskiego Towarzystwa Statystycznego, seria B. 68 (3): 531–547. doi : 10.1111/j.1467-9868.2006.00555.x .
- Berger, YG; Skinner, CJ (2005). „Estymator wariancji scyzoryka do próbkowania o nierównym prawdopodobieństwie”. Dziennik Królewskiego Towarzystwa Statystycznego, seria B. 67 (1): 79–89. doi : 10.1111/j.1467-9868.2005.00489.x .
- Jiang, J.; Lahiri, P.; Wan, SM. (2002). „Ujednolicona teoria scyzoryka dla najlepszego empirycznego przewidywania z estymacją M” . Roczniki statystyki . 30 (6): 1782–810. doi : 10.1214/aos/1043351257 .
- Jones, HL (1974). „Oszacowanie funkcji scyzoryka funkcji średnich warstw”. Biometria . 61 (2): 343–348. doi : 10.2307/2334363 . JSTOR 2334363 .
- Kish, L.; Frankel, MR (1974). „Wnioskowanie ze złożonych próbek”. Dziennik Królewskiego Towarzystwa Statystycznego, seria B. 36 (1): 1–37.
- Krewski, D.; Rao, JNK (1981). „Wnioskowanie z próbek warstwowych: właściwości linearyzacji, scyzoryka i zrównoważonych metod powtarzanej replikacji” . Roczniki statystyki . 9 (5): 1010–1019. doi : 10.1214/aos/1176345580 .
- Quenouille, MH (1956). „Uwagi dotyczące stronniczości w oszacowaniu”. Biometria . 43 (3–4): 353–360. doi : 10.1093/biomet/43.3-4.353 .
- Rao, JNK; Shao, J. (1992). „Oszacowanie wariancji scyzoryka z danymi ankietowymi w ramach imputacji gorącego pokładu” . Biometria . 79 (4): 811–822. doi : 10.1093/biomet/79.4.811 .
- Rao, JNK; Wu, CFJ; Yue, K. (1992). „Niektóre ostatnie prace nad metodami ponownego próbkowania dla złożonych ankiet”. Metodologia ankiety . 18 (2): 209–217.
- Shao, J. i Tu, D. (1995). Scyzoryk i Bootstrap. Springer-Verlag, Inc.
- Tukey, JW (1958). „Stronniczość i pewność siebie w niezbyt dużych próbkach (streszczenie)”. Roczniki statystyki matematycznej . 29 (2): 614.
- Wu, CFJ (1986). „Jackknife, Bootstrap i inne metody ponownego próbkowania w analizie regresji” . Roczniki statystyki . 14 (4): 1261–1295. doi : 10.1214/aos/1176350142 .
Notatki
- Cameron, Adrian; Trivedi, Pravin K. (2005). Mikroekonometria: metody i zastosowania . Cambridge Nowy Jork: Cambridge University Press. ISBN 9780521848053 .
- Efron, Bradley ; Stein, Charles (maj 1981). „Oszacowanie wariancji scyzoryka” . Roczniki statystyki . 9 (3): 586–596. doi : 10.1214/aos/1176345462 . JSTOR 2240822 .
- Efron, Bradley (1982). Jackknife, bootstrap i inne plany ponownego próbkowania . Filadelfia, PA: Towarzystwo Matematyki Przemysłowej i Stosowanej. ISBN 9781611970319 .
- Quenouille, Maurice H. (wrzesień 1949). „Problemy z próbkowaniem samolotu” . Roczniki statystyki matematycznej . 20 (3): 355–375. doi : 10.1214/aoms/1177729989 . JSTOR 2236533 .
- Quenouille, Maurice H. (1956). „Uwagi na temat odchylenia w oszacowaniu”. Biometria . 43 (3–4): 353–360. doi : 10.1093/biomet/43.3-4.353 . JSTOR 2332914 .
- Tukey, John W. (1958). „Odchylenie i pewność siebie w niezbyt dużych próbkach (streszczenie)” . Roczniki statystyki matematycznej . 29 (2): 614. doi : 10.1214/aoms/1177706647 .