próba Kuipera

Test Kuipera jest używany w statystyce do sprawdzenia , czy dany rozkład lub rodzina rozkładów jest sprzeczna z dowodami z próbki danych. Jej nazwa pochodzi od nazwiska holenderskiego matematyka Nicolaasa Kuipera .

Test Kuipera jest ściśle powiązany z bardziej znanym testem Kołmogorowa-Smirnowa (lub często nazywanym testem KS). Podobnie jak w teście KS, statystyki rozbieżności D + i D reprezentują bezwzględne rozmiary najbardziej dodatnich i najbardziej ujemnych różnic między dwiema porównywanymi skumulowanymi funkcjami dystrybucji . Sztuczka z testem Kuipera polega na użyciu ilości D + + D jako statystyka testowa. Ta niewielka zmiana sprawia, że ​​test Kuipera jest równie czuły w ogonach, jak iw medianie, a także sprawia, że ​​jest on niezmienny przy cyklicznych przekształceniach zmiennej niezależnej. Test Andersona-Darlinga to kolejny test, który zapewnia równą czułość na ogonach jak mediana, ale nie zapewnia niezmienności cyklicznej.

Ta niezmienność w przypadku transformacji cyklicznych sprawia, że ​​test Kuipera jest nieoceniony przy testowaniu wahań cyklicznych według pory roku, dnia tygodnia lub pory dnia, a bardziej ogólnie przy testowaniu dopasowania i różnic między kołowymi rozkładami prawdopodobieństwa .

Definicja

Ilustracja statystyki testu Kuipera dla dwóch prób. Linie czerwona i niebieska odpowiadają empirycznej funkcji rozkładu, a czarne strzałki pokazują odległości punktów, które sumują się do statystyki Kuipera.

Statystyka testowa V dla testu Kuipera jest zdefiniowana w następujący sposób. Niech F będzie ciągłą dystrybuantą skumulowaną , która ma być hipotezą zerową . Oznaczmy próbkę danych, które są niezależnymi realizacjami zmiennych losowych , których rozkładem jest F , przez x i ( i =1,..., n ). Następnie zdefiniuj

i w końcu,

oszacować parametry rodziny rozkładów .

Przykład

Moglibyśmy przetestować hipotezę, że komputery zawodzą częściej w niektórych porach roku niż w innych. Aby to przetestować, zebralibyśmy daty, w których zestaw testowy komputerów zawiódł i zbudowalibyśmy empiryczną dystrybuantę . Hipoteza zerowa mówi, że awarie są równomiernie rozłożone . Statystyka Kuipera nie zmienia się, jeśli zmienimy początek roku i nie wymaga dzielenia niepowodzeń na miesiące lub tym podobne. Inną statystyką testową mającą tę właściwość jest statystyka Watsona, która jest powiązana z testem Craméra-von Misesa .

Jeśli jednak awarie występują głównie w weekendy, wiele testów z równomiernym rozkładem, takich jak KS i Kuiper, przegapiłoby to, ponieważ weekendy są rozłożone na cały rok. Ta niezdolność do odróżnienia rozkładów o kształcie przypominającym grzebień od ciągłych rozkładów jednorodnych jest kluczowym problemem we wszystkich statystykach opartych na wariancie testu KS. Test Kuipera, zastosowany do czasów zdarzeń modulo jednego tygodnia, jest w stanie wykryć taki wzór. Korzystanie z czasów zdarzeń, które zostały zmodulowane za pomocą testu KS, może dać różne wyniki w zależności od fazy danych. W tym przykładzie test KS może wykryć niejednorodność, jeśli ustawiono początek tygodnia w sobotę, ale nie wykryć niejednorodności, jeśli tydzień zaczyna się w środę.

Zobacz też