Test Goldfelda-Quandta

Test parametryczny dla równej wariancji można zwizualizować, indeksując dane według jakiejś zmiennej, usuwając punkty danych w środku i porównując średnie odchylenia lewej i prawej strony.

W statystyce test Goldfelda -Quandta sprawdza homoskedastyczność w analizach regresji. Odbywa się to poprzez podzielenie zbioru danych na dwie części lub grupy, dlatego test jest czasami nazywany testem dwugrupowym. Test Goldfelda-Quandta jest jednym z dwóch testów zaproponowanych w artykule Stephena Goldfelda i Richarda Quandta z 1965 roku . W artykule opisano zarówno test parametryczny, jak i nieparametryczny, ale termin „test Goldfelda-Quandta” jest zwykle kojarzony tylko z tym pierwszym.

Test

Test nieparametryczny można zwizualizować, porównując liczbę „pików” w resztach z regresji uporządkowanej względem wcześniej zidentyfikowanej zmiennej z liczbą pików, które powstałyby losowo. Dolna cyfra służy jedynie do porównania, żadna część testu nie obejmuje wizualnego porównania z hipotetyczną homoskedastyczną strukturą błędu.

W kontekście regresji wielorakiej (lub regresji jednowymiarowej) hipoteza do przetestowania jest taka, że ​​wariancje błędów modelu regresji nie są stałe, lecz monotonicznie powiązane ze wstępnie zidentyfikowaną zmienną objaśniającą . Na przykład można gromadzić dane dotyczące dochodów i konsumpcji, a konsumpcję regresować w stosunku do dochodu. Jeśli wariancja wzrasta wraz ze wzrostem poziomu dochodu, wówczas dochód może być użyty jako zmienna objaśniająca. W innym przypadku można wybrać jakąś trzecią zmienną (np. majątek lub dochód z ostatniego okresu).

Test parametryczny

Test parametryczny przeprowadza się przeprowadzając oddzielne analizy najmniejszych kwadratów na dwóch podzbiorach pierwotnego zbioru danych: podzbiory te są określone w taki sposób, że obserwacje, dla których wcześniej określona zmienna objaśniająca przyjmuje najniższe wartości, znajdują się w jednym podzbiorze, a wyższe wartości w drugim . Podzbiory nie muszą być równej wielkości ani zawierać wszystkich obserwacji między nimi. Test parametryczny zakłada, że ​​błędy mają rozkład normalny . Istnieje tutaj dodatkowe założenie, że obie macierze projektowe dla dwóch podzbiorów danych są pełnego rzędu. The statystyka testowa to stosunek średniokwadratowych błędów resztowych dla regresji w dwóch podzbiorach. Ta statystyka testowa odpowiada testowi F równości wariancji , a test jedno- lub dwustronny może być odpowiedni w zależności od tego, czy znany jest kierunek przypuszczalnej relacji wariancji błędu do zmiennej objaśniającej.

Zwiększenie liczby obserwacji upuszczonych w „środku” kolejności zwiększy moc testu , ale zmniejszy liczbę stopni swobody statystyki testowej. W wyniku tego kompromisu często zdarza się, że test Goldfelda-Quandta jest wykonywany przez odrzucanie środkowej jednej trzeciej obserwacji z mniejszymi proporcjami odrzucanych obserwacji w miarę wzrostu wielkości próby.

Test nieparametryczny

Drugi test zaproponowany w artykule jest testem nieparametrycznym , a zatem nie opiera się na założeniu, że błędy mają rozkład normalny . W tym teście pojedynczy model regresji jest dopasowywany do pełnego zbioru danych. Kwadraty reszt są wymienione zgodnie z kolejnością wstępnie zidentyfikowanej zmiennej objaśniającej. Statystyką testową używaną do testowania jednorodności jest liczba pików na tej liście: tj. liczba przypadków, w których reszta do kwadratu jest większa niż wszystkie poprzednie reszty do kwadratu. Wartości krytyczne dla tej statystyki testowej są konstruowane przez argument związany z testami permutacyjnymi .

Zalety i wady

Parametryczny test Goldfelda-Quandta oferuje prostą i intuicyjną diagnostykę błędów heteroskedastycznych w jednowymiarowym lub wielowymiarowym modelu regresji. Jednak w pewnych specyfikacjach lub w porównaniu z innymi diagnostykami, a mianowicie testem Breuscha-Pagana , pojawiają się pewne wady, ponieważ test Goldfelda-Quandta jest w pewnym sensie testem ad hoc . Przede wszystkim test Goldfelda-Quandta wymaga uporządkowania danych według znanej zmiennej objaśniającej. Test parametryczny porządkuje tę zmienną objaśniającą od najniższej do najwyższej. Jeśli struktura błędu zależy od nieznanej zmiennej lub nieobserwowanej zmiennej, test Goldfelda-Quandta dostarcza niewiele wskazówek. Ponadto wariancja błędu musi wynosić a funkcja monotoniczna określonej zmiennej objaśniającej. Na przykład, w obliczu funkcji kwadratowej odwzorowującej zmienną objaśniającą na wariancję błędu, test Goldfelda-Quandta może nieprawidłowo zaakceptować hipotezę zerową błędów homoskedastycznych. [ potrzebne źródło ]

Krzepkość

Niestety test Goldfelda-Quandta nie jest bardzo odporny na błędy specyfikacji. Test Goldfelda-Quandta wykrywa błędy niehomoskedastyczne, ale nie umożliwia rozróżnienia między heteroskedastyczną strukturą błędów a podstawowym problemem specyfikacji , takim jak niepoprawna forma funkcjonalna lub pominięta zmienna. Jerry Thursby zaproponował modyfikację testu Goldfelda-Quandta przy użyciu odmiany testu RESET Ramseya , aby zapewnić pewną miarę odporności.

Właściwości małej próbki

Herbert Glejser w swoim artykule z 1969 roku opisującym test Glejsera przedstawia mały eksperyment z próbkami , aby przetestować moc i czułość testu Goldfelda-Quandta. Jego wyniki pokazują ograniczony sukces testu Goldfelda-Quandta, z wyjątkiem przypadków „czystej heteroskedastyczności” - gdzie wariancję można opisać jako funkcję tylko podstawowej zmiennej objaśniającej.

Implementacje oprogramowania

  • W R test Goldfelda-Quandta można zaimplementować przy użyciu funkcji gqtest pakietu lmtest (tylko parametryczny test F) lub funkcji goldfeld_quandt pakietu skedastic (zarówno parametryczny test F, jak i test pików nieparametrycznych).

Notatki

Linki zewnętrzne