GRIM test

  Test niespójności średnich związanych z granulacją (GRIM) jest prostym testem statystycznym służącym do identyfikacji niespójności w analizie zbiorów danych. Test opiera się na fakcie, że dla danego zbioru danych zawierającego N liczb całkowitych średnia arytmetyczna (powszechnie nazywana po prostu średnią) jest ograniczona do kilku możliwych wartości: zawsze musi być wyrażona jako ułamek z licznikiem całkowitym i mianownikiem N . Jeśli podana średnia nie pasuje do tego opisu, gdzieś musi być błąd; preferowanym terminem określającym takie błędy są „niespójności”, aby podkreślić, że ich pochodzenie jest zazwyczaj nieznane przy pierwszym odkryciu. Niespójności GRIM mogą wynikać z nieumyślnego wprowadzenia danych lub błędów typograficznych lub z oszustwa naukowego . Test GRIM jest najbardziej przydatny w takich dziedzinach, jak psychologia , gdzie badacze zazwyczaj używają małych grup , a pomiary są często liczbami całkowitymi . Test GRIM został zaproponowany przez Nicka Browna i Jamesa Heathersa w 2016 roku w związku ze wzrostem świadomości kryzysu replikacyjnego w niektórych dziedzinach nauki.

Procedura

Test GRIM jest prosty do wykonania. Dla każdej podanej w pracy średniej wielkość próby ( N ) i obliczane są wszystkie ułamki z mianownikiem N. Średnia jest następnie porównywana z tą listą (mając świadomość faktu, że wartości mogą być zaokrąglane niekonsekwentnie: w zależności od kontekstu, średnia 1,125 może być podana jako 1,12 lub 1,13). Jeśli średniej nie ma na tej liście, jest ona zaznaczona jako matematycznie niemożliwa.

Przykład

Rozważmy eksperyment, w którym rzuca się 20 razy uczciwą kostką . Każdy rzut da jedną liczbę całkowitą od 1 do 6, a hipotetyczna średnia wynosi 3,5. Wyniki rzutów są następnie uśredniane razem, a średnia jest podawana jako 3,48. Jest to wartość zbliżona do oczekiwanej i wydaje się potwierdzać hipotezę. Jednak test GRIM ujawnia, że ​​​​zgłoszona średnia jest matematycznie niemożliwa: wynik dzielenia dowolnej liczby całkowitej przez 20, zapisany z dokładnością do 2 miejsc po przecinku , musi mieć postać X.X0 lub X.X5; niemożliwe jest podzielenie dowolnej liczby całkowitej przez 20 i uzyskanie wyniku z „8” na drugim miejscu po przecinku.

Interpretacja i ograniczenia

Nawet jeśli dane nie przejdą testu GRIM, nie jest to automatycznie oznaką manipulacji. Błędy w średniej mogą powstać niewinnie w wyniku błędu testera, błędów typograficznych, błędów obliczeniowych i programistycznych lub niewłaściwego podania wielkości próby. Może to jednak oznaczać, że niektóre dane zostały niewłaściwie wykluczone lub że średnia została nielegalnie sfałszowana, aby wyniki wyglądały na bardziej znaczące . Lokalizacja niepowodzeń może wskazywać na ich przyczynę: izolowana niemożliwa średnia może być spowodowana błędem, wiele niemożliwych wartości w tym samym wierszu tabeli wskazuje na słabą wskaźnik odpowiedzi i wiele niemożliwych wartości w tej samej kolumnie wskazuje, że podana wielkość próby jest nieprawidłowa. Wiele błędów rozsianych po całej tabeli może być oznaką głębszych problemów, a do analizy podejrzanych danych można użyć innych testów statystycznych.

Test GRIM sprawdza się najlepiej w przypadku zbiorów danych, w których: liczebność próby jest stosunkowo niewielka, liczba składowych składowych w miarach złożonych jest również niewielka, a średnia podawana jest z dokładnością do wielu miejsc po przecinku. W niektórych przypadkach może się wydawać, że ważna średnia nie zda testu, jeśli dane wejściowe nie zostaną zdyskretyzowane zgodnie z oczekiwaniami - na przykład, jeśli ludzie zostaną zapytani, ile kawałków pizzy zjedli w bufecie, niektórzy ludzie mogą odpowiedzieć ułamkiem, takim jak „trzy i pół” zamiast liczby całkowitej zgodnie z oczekiwaniami.

Aplikacje

Brown i Heathers zastosowali test do 260 artykułów opublikowanych w Psychological Science , Journal of Experimental Psychology: General oraz Journal of Personality and Social Psychology . Spośród tych artykułów 71 nadawało się do analizy testowej GRIM; 36 z nich zawierało co najmniej jedną niemożliwą wartość, a 16 zawierało wiele niemożliwych wartości.

Testy GRIM odegrały również znaczącą rolę w wykrywaniu błędów w publikacjach Laboratorium Żywności i Marki Uniwersytetu Cornell pod kierunkiem Briana Wansinka . Testy GRIM ujawniły, że seria artykułów na temat wpływu ceny na konsumpcję w bufecie z pizzą typu „wszystko, co możesz zjeść” zawierała wiele niemożliwych środków – głębsza analiza surowych danych ujawniła, że ​​w wielu przypadkach rozmiary próbek były błędnie podane, a wartości błędnie obliczone.

Linki zewnętrzne