Kryterium Chauveneta
W teorii statystycznej kryterium Chauveneta (nazwane na cześć Williama Chauveneta ) jest sposobem oceny, czy jeden fragment danych eksperymentalnych — wartość odstająca — ze zbioru obserwacji może być fałszywy.
Pochodzenie
Ideą kryterium Chauveneta jest znalezienie przedziału prawdopodobieństwa, wyśrodkowanego na średniej rozkładu normalnego , który powinien rozsądnie zawierać wszystkie n próbek zbioru danych. W ten sposób wszelkie punkty danych z n próbek, które leżą poza tym przedziałem prawdopodobieństwa, można uznać za odstające, usunięte ze zbioru danych i można obliczyć nową średnią i odchylenie standardowe na podstawie pozostałych wartości i nowej wielkości próby. odpowiadają granicom pasma prawdopodobieństwa wokół średniej ( ) porównanie tej wartości wartość bezwzględna różnicy między podejrzanymi wartościami odstającymi a średnią podzieloną przez odchylenie standardowe próby (równanie 1).
-
()
Gdzie
- to maksymalne dopuszczalne odchylenie,
- to wartość bezwzględna,
- to wartość podejrzanej wartości odstającej,
- jest średnią próbki i
- to odchylenie standardowe próbki.
Aby uznać, że obejmuje wszystkie próbie, przedział prawdopodobieństwa (wyśrodkowany na średniej) musi uwzględniać tylko próbek (jeśli to tylko 2,5 próbek należy uwzględnić w przedziale prawdopodobieństwa). W rzeczywistości nie możemy mieć częściowych próbek, więc (2,5 dla ) wynosi w przybliżeniu . Wszystko mniej niż jest w przybliżeniu (2 jeśli ) i nie jest poprawne ponieważ chcemy znaleźć przedział prawdopodobieństwa, który a próbki szukamy prawdopodobieństwa , które jest równe próbkom {2} (Równanie 2).
-
()
Gdzie
- jest pasmem prawdopodobieństwa wyśrodkowanym na średniej próbki i.
- to wielkość próbki.
Wielkość odpowiada połączonemu prawdopodobieństwu reprezentowanemu przez dwa ogony rozkładu normalnego, . Aby znaleźć poziom odchylenia standardowego związany z przeanalizować tylko prawdopodobieństwo jednego z ogonów rozkładu normalnego ze względu na jego symetrię (Równanie 3).
-
()
Gdzie
- jest prawdopodobieństwem reprezentowanym przez jeden ogon rozkładu normalnego i
- = wielkość próbki.
Równanie 1 jest analogiczne do ).
-
()
Gdzie
- to wynik ,
- to wartość próbki,
- jest średnią standardowego rozkładu normalnego i
- to odchylenie standardowe standardowego rozkładu normalnego.
Opierając się na równaniu 4, aby znaleźć równanie 1) znaleźć wynik z odpowiadający punktowi Z odpowiadającemu } - tabela wyników. jest równy wynikowi dla . tej metody określić dla dowolnej wielkości W Excelu znaleźć za pomocą następującego wzoru: =ABS (NORM.S.INV(1/( ) .
Obliczenie
Aby zastosować kryterium Chauveneta, najpierw oblicz średnią i odchylenie standardowe obserwowanych danych. W oparciu o to, jak bardzo podejrzane dane różnią się od średniej, użyj rozkładu normalnego (lub jej tabeli), aby określić prawdopodobieństwo , że dany punkt danych będzie miał wartość podejrzanego punktu danych. Pomnóż to prawdopodobieństwo przez liczbę pobranych punktów danych. Jeśli wynik jest mniejszy niż 0,5, podejrzany punkt danych może zostać odrzucony, tj. odczyt może zostać odrzucony, jeśli prawdopodobieństwo uzyskania określonego odchylenia od średniej jest mniejsze niż 1 2 n {\ displaystyle . [ potrzebne źródło ]
Przykład
Załóżmy na przykład, że wartość jest mierzona eksperymentalnie w kilku próbach jako 9, 10, 10, 10, 11 i 50, a my chcemy dowiedzieć się, czy 50 jest wartością odstającą.
Najpierw znajdujemy .
znajdujemy podłączając do _ _
Następnie znajdujemy z-score równy 50.
Stamtąd widzimy, że i możemy wywnioskować, że 50 jest wartością odstającą zgodnie z kryterium Chauveneta.
Kryterium Peirce'a
Inną metodą eliminacji fałszywych danych jest kryterium Peirce'a . Został opracowany kilka lat przed opublikowaniem kryterium Chauveneta i jest bardziej rygorystycznym podejściem do racjonalnego usuwania danych odstających. Inne metody, takie jak test Grubbsa dla wartości odstających, są wymienione pod listą wartości Outlier . [ potrzebne źródło ]
Krytyka
Usuwanie danych odstających to kontrowersyjna praktyka, na którą wielu naukowców i wykładowców przedmiotów ścisłych patrzy z dezaprobatą; chociaż kryterium Chauveneta zapewnia obiektywną i ilościową metodę odrzucania danych, nie sprawia, że praktyka jest bardziej uzasadniona naukowo lub metodologicznie, zwłaszcza w małych zbiorach lub tam, gdzie nie można założyć rozkładu normalnego . Odrzucenie wartości odstających jest bardziej akceptowalne w obszarach praktyki, w których model leżący u podstaw mierzonego procesu i zwykły rozkład błędu pomiaru są z pewnością znane.
Bibliografia
- Taylor, John R. Wprowadzenie do analizy błędów . 2. wydanie. Sausalito, Kalifornia: University Science Books, 1997. s. 166–8.
- Barnett, Vic i Lewis, Toby. „Wartości odstające w danych statystycznych”. 3. edycja. Chichester: J.Wiley and Sons, 1994. ISBN 0-471-93094-6 .
- Aicha Zerbet, Michaił Nikulin. Nowe statystyki do wykrywania wartości odstających w przypadku wykładniczym, Communications in Statistics: Theory and Methods, 2003, t. 32, s. 573–584.