Analiza okrężna
W statystyce analiza cykliczna to wybór szczegółów analizy danych przy użyciu analizowanych danych. Jest często określany jako podwójne zanurzenie , ponieważ używa się tych samych danych dwukrotnie. Analiza cykliczna w nieuzasadniony sposób zawyża pozorną siłę statystyczną wszelkich zgłoszonych wyników i, w najbardziej skrajnym przypadku, może doprowadzić do znalezienia pozornie znaczącego wyniku w danych, które składają się wyłącznie z szumu. W szczególności, gdy eksperyment jest realizowany w celu zbadania postulowanego efektu, niewłaściwym wykorzystaniem statystyk jest początkowe zmniejszenie pełnego zbioru danych poprzez wybranie podzbioru danych w sposób dostosowany do badanych efektów. Drugie nadużycie ma miejsce, gdy wydajność dopasowanego modelu lub reguły klasyfikacji jest podawana jako wynik nieprzetworzony, bez uwzględnienia efektów wyboru modelu i strojenia parametrów na podstawie analizowanych danych.
Przykłady
W najprostszym przypadku może to obejmować decyzję o usunięciu wartości odstających, po zauważeniu, że może to pomóc w ulepszeniu analizy eksperymentu. Efekt może być bardziej subtelny. Na z funkcjonalnego rezonansu magnetycznego (fMRI) często wymagają znacznej ilości wstępnego przetwarzania. Można je stosować stopniowo, aż analiza „zadziała”. Podobnie klasyfikatory stosowane w analizie wzorców wielowokselowych danych fMRI wymagają parametrów, które można dostroić, aby zmaksymalizować dokładność klasyfikacji.
W geologii potencjał analizy kołowej został zauważony w przypadku map uskoków geologicznych, gdzie można je sporządzić na podstawie założenia, że uskoki rozwijają się i propagują w określony sposób, a mapy te są później wykorzystywane jako dowód, że wady faktycznie rozwijają się w ten sposób.
Rozwiązania
Staranne zaprojektowanie analizy, którą planuje się przeprowadzić przed zebraniem danych, oznacza, że zebrane dane nie mają wpływu na wybór analizy. Alternatywnie można zdecydować się na udoskonalenie klasyfikacji na jednym lub dwóch uczestnikach, a następnie wykorzystać analizę danych pozostałych uczestników. Jeśli chodzi o dobór parametrów klasyfikacyjnych, powszechną metodą jest podzielenie danych na dwa zestawy i znalezienie optymalnego parametru przy użyciu jednego zestawu, a następnie przetestowanie wartości tego parametru na drugim zestawie. Jest to standardowa technika [ potrzebne źródło ] używana (na przykład) przez bibliotekę klasyfikacyjną Princeton MVPA.
Notatki
- Kriegeskorte, N.; Simmons, WK; Bellgowan, PSF; Baker, CI (2009). „Analiza kołowa w neuronauce systemowej: niebezpieczeństwa podwójnego zanurzenia” . Natura Neurobiologia . 12 (5): 535–540. doi : 10.1038/nn.2303 . PMC 2841687 . PMID 19396166 .
- Kriegeskorte, N.; Lindquist, MA; Nichols TE; Poldrack, RA; Vul, E. (2010). „Wszystko, czego nigdy nie chciałeś wiedzieć o analizie cyklicznej, ale bałeś się zapytać” . Dziennik mózgowego przepływu krwi i metabolizmu . 30 (9): 1551. doi : 10.1038/jcbfm.2010.86 . PMC 2949251 . PMID 20571517 .
- Tolstrup, N.; Rouzé, P.; Brunak S. (1997). „Konsensus punktu rozgałęzienia z Arabidopsis znaleziony na podstawie analizy nieokrągłej pozwala na lepsze przewidywanie miejsc akceptorowych” . Badania kwasów nukleinowych . 25 (15): 3159–3163. doi : 10.1093/nar/25.15.3159 . PMC 146848 . PMID 9224618 .
- Olivetti, E.; Mognon, A.; Greiner, S.; Avesani, P. (2010). „Dekodowanie mózgu: błędy w szacowaniu błędów”. 2010 Pierwsze warsztaty na temat dekodowania mózgu: wyzwania związane z rozpoznawaniem wzorców w neuroobrazowaniu . P. 40. doi : 10.1109/WBD.2010.9 . ISBN 978-1-4244-8486-7 .