Przykładowe maksimum i minimum

Wykresy pudełkowe eksperymentu Michelsona -Morleya , pokazujące przykładowe maksima i minima

W statystyce maksimum i minimum próbki, zwane także największą obserwacją i najmniejszą obserwacją, to wartości największego i najmniejszego elementu próbki . Są to podstawowe statystyki podsumowujące , używane w statystykach opisowych , takich jak podsumowanie pięciocyfrowe i siedmiocyfrowe podsumowanie Bowleya oraz związany z nim wykres pudełkowy .

Wartość minimalna i maksymalna to statystyki pierwszego i ostatniego rzędu (często oznaczane odpowiednio jako X (1) i X ( n ) dla próby o wielkości n ).

Jeśli próbka ma wartości odstające , koniecznie obejmują one maksimum lub minimum próbki, lub oba, w zależności od tego, czy są one skrajnie wysokie, czy niskie. Jednak maksimum i minimum próbki nie muszą być wartościami odstającymi, jeśli nie są one niezwykle odległe od innych obserwacji.

Krzepkość

Maksimum i minimum próbki to najmniej solidne statystyki : są one maksymalnie wrażliwe na wartości odstające.

Może to być zaletą lub wadą: jeśli wartości ekstremalne są rzeczywiste (nie błędy pomiaru) i mają rzeczywiste konsekwencje, jak w zastosowaniach teorii wartości ekstremalnych, takich jak budowanie wałów przeciwpowodziowych lub straty finansowe, wówczas wartości odstające (odzwierciedlone w przykładowych ekstremach) są ważne. Z drugiej strony, jeśli wartości odstające mają niewielki wpływ lub nie mają żadnego wpływu na rzeczywiste wyniki, wówczas użycie niesolidnych statystyk, takich jak ekstrema próby, po prostu zaciemnia statystyki i należy zastosować solidne alternatywy, takie jak inne kwantyle: 10. i 90. percentyl ( first i last decile ) są bardziej niezawodnymi alternatywami.

Pochodne statystyki

Oprócz tego, że są składnikiem każdej statystyki, która wykorzystuje wszystkie elementy próbki, ekstrema próbki są ważnymi częściami zakresu , miary rozproszenia i średniego zasięgu , miary lokalizacji. Zdają sobie również sprawę z maksymalnego odchylenia bezwzględnego : jednym z nich jest punkt najdalszy od dowolnego punktu, w szczególności miara środka, taka jak mediana lub średnia.

Aplikacje

Płynne maksimum

W przypadku zestawu próbek funkcja maksimum nie jest gładka, a zatem nieróżniczkowalna. W przypadku problemów optymalizacyjnych występujących w statystyce często trzeba ją aproksymować funkcją gładką, która jest bliska maksimum zbioru.

Gładkie maksimum , np.

sol ( x 1 , x 2 , …, x n ) = log( exp( x 1 ) + exp( x 2 ) + … + exp( x n ) )

jest dobrym przybliżeniem maksimum próbki.

Statystyki podsumowujące

Maksimum i minimum próbki to podstawowe statystyki podsumowujące , pokazujące najbardziej ekstremalne obserwacje i są używane w podsumowaniu pięciocyfrowym i wersji podsumowania siedmiocyfrowego oraz powiązanego wykresu pudełkowego .

Interwał prognozy

Maksimum i minimum próbki zapewniają nieparametryczny przedział predykcji : w próbie z populacji lub, bardziej ogólnie, wymiennej sekwencji zmiennych losowych, każda obserwacja z równym prawdopodobieństwem będzie maksimum lub minimum.

Tak więc, jeśli ktoś ma próbkę i wybiera inną obserwację, będzie do tej pory, prawdopodobieństwo bycia najmniejszą widzianą do tej pory wartością, a zatem drugą czasu maksimum próbki , maksimum i przez M i m to [ m .

Na przykład, jeśli n = 19, to [ m , M ] daje przedział predykcji 18/20 = 90% – w 90% przypadków 20. obserwacja mieści się między najmniejszą a największą obserwowaną dotychczas obserwacją. Podobnie, n = 39 daje 95% przedział predykcji, a n = 199 daje 99% interwał predykcji.

Oszacowanie

Ze względu na ich wrażliwość na wartości odstające ekstrema próbki nie mogą być niezawodnie używane jako estymatory , chyba że dane są czyste – solidne alternatywy obejmują pierwszy i ostatni decyl .

Jednak przy czystych danych lub w ustawieniach teoretycznych mogą czasami okazać się bardzo dobrymi estymatorami, szczególnie w przypadku rozkładów platykurtycznych , gdzie dla małych zestawów danych najskuteczniejszym estymatorem jest średni zakres .

Są one jednak nieefektywnymi estymatorami lokalizacji dla rozkładów mezokurtycznych, takich jak rozkład normalny i rozkłady leptokurtyczne.

Jednolita dystrybucja

Do pobierania próbek bez zamiany z jednolitego rozkładu z jednym lub dwoma nieznanymi punktami końcowymi (więc z N nieznanym lub z nieznanymi zarówno M , jak i N ), maksimum próbki lub odpowiednio maksimum i minimum próbki są wystarczające i pełne statystyki dla nieznanych punktów końcowych; zatem nieobciążonym estymatorem wyprowadzonym z nich będzie UMVU .

Jeśli nieznany jest tylko górny punkt końcowy, maksimum próbki jest estymatorem obciążonym dla maksimum populacji, ale estymator nieobciążony. (gdzie m to maksimum próby, a k to wielkość próby) to estymator UMVU; zobacz problem z niemieckim czołgiem, aby uzyskać szczegółowe informacje.

Jeśli oba punkty końcowe są nieznane, wówczas zakres próby jest obciążonym estymatorem dla zakresu populacji, ale skorygowanie o maksimum powyżej daje estymator UMVU.

Jeśli oba punkty końcowe są nieznane, to średni zakres jest nieobciążonym (a zatem UMVU) estymatorem punktu środkowego przedziału (tutaj równoważnie mediany populacji, średniej lub średniego zakresu).

Powodem, dla którego ekstrema próbki są wystarczającymi statystykami, jest to, że rozkład warunkowy próbek nieekstremalnych jest po prostu rozkładem dla jednolitego przedziału między maksimum a minimum próbki - po ustaleniu punktów końcowych wartości punktów wewnętrznych nie dodają żadnych dodatkowych informacji .

Testowanie normalności

Ekstrema próbki można wykorzystać do testowania normalności , ponieważ zdarzenia poza zakresem 3σ są bardzo rzadkie.

Ekstrema próbki można wykorzystać do prostego testu normalności , w szczególności kurtozy: oblicza się statystykę t maksimum i minimum próbki (odejmuje średnią próbki i dzieli przez odchylenie standardowe próbki ) i jeśli są one niezwykle duże dla próbki rozmiar (zgodnie z regułą trzech sigma i zawartą w niej tabelą, a dokładniej rozkładem t-Studenta ), to kurtoza rozkładu próby znacznie odbiega od rozkładu normalnego.

Na przykład proces dzienny powinien spodziewać się zdarzenia 3σ raz w roku (dni kalendarzowych; raz na półtora roku dni roboczych), podczas gdy zdarzenie 4σ zdarza się średnio co 40 lat dni kalendarzowych, 60 lat dni roboczych ( raz w życiu), zdarzenia 5σ zdarzają się co 5000 lat (raz w zapisanej historii), a zdarzenia 6σ zdarzają się co 1,5 miliona lat (zasadniczo nigdy). Tak więc, jeśli ekstrema próbki znajdują się 6 sigma od średniej, mamy do czynienia z poważnym błędem normalności.

Co więcej, ten test jest bardzo łatwy do przekazania bez angażowania statystyk.

Te testy normalności można zastosować na przykład w przypadku ryzyka kurtozy .

Teoria wartości ekstremalnych

Wydarzenia mogą wykraczać poza wszelkie wcześniej obserwowane zjawiska, jak w przypadku trzęsienia ziemi w Lizbonie w 1755 roku .

Przykładowe ekstrema odgrywają dwie główne role w teorii wartości ekstremalnych :

  • po pierwsze, wyznaczają dolną granicę zdarzeń ekstremalnych – zdarzenia mogą być co najmniej tak ekstremalne i dla próby o takiej wielkości;
  • po drugie, mogą być czasami używane w estymatorach prawdopodobieństwa bardziej ekstremalnych zdarzeń.

Należy jednak zachować ostrożność przy stosowaniu ekstremów próbki jako wytycznych: w przypadku rozkładów z dużymi ogonami lub w przypadku procesów niestacjonarnych zdarzenia ekstremalne mogą być znacznie bardziej ekstremalne niż jakiekolwiek wcześniej zaobserwowane zdarzenie. Jest to szczegółowo opisane w teorii czarnego łabędzia .

Zobacz też