Skurcz (statystyki)

W statystyce kurczenie się to zmniejszenie skutków zmienności próbkowania. W analizie regresji dopasowana zależność wydaje się działać gorzej na nowym zbiorze danych niż na zbiorze danych użytym do dopasowania. W szczególności „kurczy się” wartość współczynnika determinacji . Ten pomysł jest uzupełnieniem overfittingu oraz osobno do standardowego dostosowania współczynnika determinacji w celu zrekompensowania subjunctive skutków dalszego próbkowania, takich jak kontrola pod kątem potencjalnych nowych terminów wyjaśniających poprawiających model przez przypadek: to znaczy sama formuła korekty zapewnia „skurcz”. " Ale formuła dostosowania daje sztuczne kurczenie się.

Estymator skurczu to estymator , który jawnie lub niejawnie uwzględnia skutki skurczu. W luźnym ujęciu oznacza to, że naiwne lub surowe oszacowanie poprawia się, łącząc je z innymi informacjami. Termin ten odnosi się do poglądu, że ulepszone oszacowanie jest bliższe wartości dostarczonej przez „inne informacje” niż surowe oszacowanie. W tym sensie skurcz jest używany do uregulowania źle postawionych problemów wnioskowania .

Kurczenie się jest niejawne we wnioskowaniu bayesowskim i wnioskowaniu z ukaranym prawdopodobieństwem, a jawne we wnioskowaniu typu Jamesa-Steina . W przeciwieństwie do tego, proste rodzaje procedur szacowania największej wiarygodności i najmniejszych kwadratów nie uwzględniają efektów kurczenia się, chociaż mogą być stosowane w ramach schematów szacowania kurczenia się.

Opis

Wiele standardowych estymatorów można ulepszyć pod względem błędu średniokwadratowego (MSE), zmniejszając je do zera (lub dowolnej innej stałej wartości). Innymi słowy, poprawa oszacowania wynikająca z odpowiedniego zmniejszenia szerokości przedziału ufności może przeważyć pogorszenie oszacowania wprowadzone przez przesunięcie oszacowania w kierunku zera (patrz kompromis między odchyleniem a wariancją ) .

Załóżmy, że oczekiwana wartość oszacowania surowego nie jest równa zeru i rozważmy inne estymatory otrzymane przez pomnożenie oszacowania surowego przez pewien parametr. Wartość tego parametru można określić tak, aby zminimalizować MSE nowego oszacowania. Dla tej wartości parametru nowe oszacowanie będzie miało mniejszy MSE niż surowe. W ten sposób został udoskonalony. Efektem tego może być przekształcenie nieobciążonego surowego oszacowania w ulepszone oszacowanie obciążone.

Przykłady

Dobrze znany przykład pojawia się przy szacowaniu wariancji populacji przez wariancję próby . Dla wielkości próby n użycie dzielnika n - 1 w zwykłym wzorze ( poprawka Bessela ) daje estymator nieobciążony, podczas gdy inne dzielniki mają niższy MSE kosztem błędu systematycznego. Optymalny wybór dzielnika (ważenie kurczenia się) zależy od nadmiernej kurtozy populacji, co omówiono przy błędzie średniokwadratowym: wariancja , ale zawsze można zrobić lepiej (pod względem MSE) niż estymator nieobciążony; dla rozkładu normalnego dzielnik n + 1 daje taki, który ma minimalny błąd średniokwadratowy.

Metody

Rodzaje regresji , które obejmują oszacowanie skurczu, obejmują regresję grzbietową , w której współczynniki uzyskane z regularnej regresji metodą najmniejszych kwadratów są przybliżane do zera przez pomnożenie przez stałą ( współczynnik skurczu ) oraz regresję lassową , w której współczynniki są przybliżane do zera przez dodanie lub odejmując stałą.

Wykorzystanie estymatorów skurczu w kontekście analizy regresji, gdzie może występować duża liczba zmiennych objaśniających, zostało opisane przez Copas. W tym przypadku wartości estymowanych współczynników regresji są zmniejszane do zera, co skutkuje zmniejszeniem błędu średniokwadratowego przewidywanych wartości z modelu po zastosowaniu do nowych danych. Późniejszy artykuł Copasa stosuje kurczenie się w kontekście, w którym problemem jest przewidywanie odpowiedzi binarnej na podstawie binarnych zmiennych objaśniających.

Hausser i Strimmer „opracowują estymator skurczu typu Jamesa-Steina, w wyniku czego powstaje procedura, która jest bardzo wydajna statystycznie i obliczeniowo. Pomimo swojej prostoty… przewyższa osiem innych procedur szacowania entropii w różnych scenariuszach pobierania próbek i modele generujące dane, nawet w przypadkach poważnego niedopróbkowania. ... metoda jest w pełni analityczna, a zatem niedroga obliczeniowo. Ponadto ... procedura jednocześnie zapewnia oszacowanie entropii i częstotliwości komórek. ... Proponowane estymatory skurczu entropia i informacja wzajemna, jak również wszystkie inne zbadane estymatory entropii zostały zaimplementowane w R (R Development Core Team, 2008). Odpowiedni pakiet R „entropia” został zdeponowany w archiwum CRAN R i jest dostępny pod adresem URL https://cran.r-project.org/web/packages/entropy/ na licencji GNU General Public License."

Zobacz też

Oprogramowanie statystyczne

  • Hausser, Jan. „entropia” . pakiet entropii dla R . Źródło 2013-03-23 ​​.