Testowanie hipotez sugerowanych przez dane
W statystyce hipotezy zasugerowane przez dany zbiór danych , gdy są testowane z tym samym zbiorem danych, który je zasugerował, prawdopodobnie zostaną zaakceptowane, nawet jeśli nie są prawdziwe . Dzieje się tak, ponieważ w grę wchodziłoby rozumowanie okrężne (podwójne zanurzenie): coś wydaje się prawdziwe w ograniczonym zbiorze danych; dlatego stawiamy hipotezę, że jest to ogólnie prawda; dlatego błędnie testujemy to na tym samym, ograniczonym zbiorze danych, co wydaje się potwierdzać, że to prawda. Generowanie hipotez na podstawie już zaobserwowanych danych, bez sprawdzania ich na nowych danych, określane jest mianem teoretyzowania post hoc (z łac. post hoc , "po tym").
Prawidłową procedurą jest przetestowanie dowolnej hipotezy na zbiorze danych, który nie został użyty do wygenerowania hipotezy.
Ogólny problem
Testowanie hipotezy sugerowanej przez dane może bardzo łatwo dać wyniki fałszywie dodatnie ( błędy typu I ). Jeśli ktoś szuka wystarczająco długo iw wystarczająco różnych miejscach, w końcu można znaleźć dane potwierdzające każdą hipotezę. Jednak te pozytywne dane same w sobie nie stanowią dowodu na to, że hipoteza jest poprawna. Negatywne dane testowe, które zostały odrzucone, są równie ważne, ponieważ dają wyobrażenie o tym, jak często pozytywne wyniki porównuje się z przypadkiem. Przeprowadzenie eksperymentu, zobaczenie wzorca w danych, zaproponowanie hipotezy na podstawie tego wzorca, a następnie użycie tego samego dane eksperymentalne jako dowód nowej hipotezy są wyjątkowo podejrzane, ponieważ dane ze wszystkich innych eksperymentów, ukończonych lub potencjalnych, zostały zasadniczo „wyrzucone” przez wybranie spojrzenia tylko na eksperymenty, które sugerowały nową hipotezę.
Duży zestaw testów, jak opisano powyżej, znacznie zawyża prawdopodobieństwo błędu typu I , ponieważ odrzucane są wszystkie dane z wyjątkiem tych najbardziej korzystnych dla hipotezy . Jest to ryzyko nie tylko w testowaniu hipotez , ale we wszystkich wnioskach statystycznych , ponieważ często problematyczne jest dokładne opisanie procesu wyszukiwania i odrzucania danych . Innymi słowy, chce się zachować wszystkie dane (niezależnie od tego, czy mają tendencję do potwierdzania, czy odrzucania hipotezy) z „dobrych testów”, ale czasami trudno jest ustalić, czym jest „dobry test”. Jest to szczególny problem w modelowaniu statystycznym , gdzie wiele różnych modeli jest odrzucanych metodą prób i błędów przed opublikowaniem wyniku (patrz także przeuczenie , błąd publikacji ).
Błąd ten jest szczególnie powszechny w eksploracji danych i uczeniu maszynowym . Często występuje również w publikacjach akademickich , gdzie akceptowane są tylko doniesienia o pozytywnych, a nie negatywnych wynikach, co skutkuje efektem znanym jako stronniczość publikacji .
Prawidłowe procedury
Wszystkie strategie solidnego testowania hipotez sugerowanych przez dane obejmują włączenie szerszego zakresu testów w celu potwierdzenia lub obalenia nowej hipotezy. Obejmują one:
- Pobieranie próbek potwierdzających
- Walidacja krzyżowa
- Metody kompensacji porównań wielokrotnych
- Badania symulacyjne, w tym odpowiednia reprezentacja rzeczywistych testów wielokrotnych
wszystkich kontrastów w problemach porównań wielokrotnych Henry'ego Scheffé jest najbardziej [ potrzebne źródło ] dobrze znanym lekarstwem w przypadku analizy wariancji . Jest to metoda przeznaczona do testowania hipotez sugerowanych przez dane przy jednoczesnym unikaniu opisanego powyżej błędu.
Zobacz też
- Korekta Bonferroniego
- Analiza danych
- Pogłębianie danych
- Analiza danych rozpoznawczych
- SŁUCHAM
- p -hakowanie
- Analiza post-hoc
- Analityka predykcyjna
- Błąd strzelca wyborowego z Teksasu
- Błędy I i II rodzaju
- Niewygodna nauka