Analiza okrężna

W statystyce analiza cykliczna to wybór szczegółów analizy danych przy użyciu analizowanych danych. Jest często określany jako podwójne zanurzenie , ponieważ używa się tych samych danych dwukrotnie. Analiza cykliczna w nieuzasadniony sposób zawyża pozorną siłę statystyczną wszelkich zgłoszonych wyników i, w najbardziej skrajnym przypadku, może doprowadzić do znalezienia pozornie znaczącego wyniku w danych, które składają się wyłącznie z szumu. W szczególności, gdy eksperyment jest realizowany w celu zbadania postulowanego efektu, niewłaściwym wykorzystaniem statystyk jest początkowe zmniejszenie pełnego zbioru danych poprzez wybranie podzbioru danych w sposób dostosowany do badanych efektów. Drugie nadużycie ma miejsce, gdy wydajność dopasowanego modelu lub reguły klasyfikacji jest podawana jako wynik nieprzetworzony, bez uwzględnienia efektów wyboru modelu i strojenia parametrów na podstawie analizowanych danych.

Przykłady

W najprostszym przypadku może to obejmować decyzję o usunięciu wartości odstających, po zauważeniu, że może to pomóc w ulepszeniu analizy eksperymentu. Efekt może być bardziej subtelny. Na z funkcjonalnego rezonansu magnetycznego (fMRI) często wymagają znacznej ilości wstępnego przetwarzania. Można je stosować stopniowo, aż analiza „zadziała”. Podobnie klasyfikatory stosowane w analizie wzorców wielowokselowych danych fMRI wymagają parametrów, które można dostroić, aby zmaksymalizować dokładność klasyfikacji.

W geologii potencjał analizy kołowej został zauważony w przypadku map uskoków geologicznych, gdzie można je sporządzić na podstawie założenia, że ​​uskoki rozwijają się i propagują w określony sposób, a mapy te są później wykorzystywane jako dowód, że wady faktycznie rozwijają się w ten sposób.

Rozwiązania

Staranne zaprojektowanie analizy, którą planuje się przeprowadzić przed zebraniem danych, oznacza, że ​​zebrane dane nie mają wpływu na wybór analizy. Alternatywnie można zdecydować się na udoskonalenie klasyfikacji na jednym lub dwóch uczestnikach, a następnie wykorzystać analizę danych pozostałych uczestników. Jeśli chodzi o dobór parametrów klasyfikacyjnych, powszechną metodą jest podzielenie danych na dwa zestawy i znalezienie optymalnego parametru przy użyciu jednego zestawu, a następnie przetestowanie wartości tego parametru na drugim zestawie. Jest to standardowa technika [ potrzebne źródło ] używana (na przykład) przez bibliotekę klasyfikacyjną Princeton MVPA.

Notatki