Partycjonowanie rekurencyjne

Partycjonowanie rekurencyjne jest metodą statystyczną służącą do analizy wielu zmiennych . Partycjonowanie rekurencyjne tworzy drzewo decyzyjne , które ma na celu poprawną klasyfikację członków populacji poprzez podzielenie jej na subpopulacje w oparciu o kilka dychotomicznych zmiennych niezależnych . Proces ten nazywa się rekurencyjnym , ponieważ każdą subpopulację można z kolei dzielić nieograniczoną liczbę razy, aż proces podziału zakończy się po osiągnięciu określonego kryterium zatrzymania.

Rekurencyjne drzewo podziału pokazujące przeżycie pasażerów na Titanicu („sibsp” to liczba małżonków lub rodzeństwa na pokładzie). Liczby pod liśćmi pokazują prawdopodobieństwo przeżycia i procent obserwacji na liściu. Podsumowując: Twoje szanse na przeżycie były duże, jeśli byłeś (i) kobietą lub (ii) młodym chłopcem bez kilku członków rodziny.

Metody partycjonowania rekurencyjnego są opracowywane od lat 80. XX wieku. Dobrze znane metody partycjonowania rekurencyjnego obejmują algorytm ID3 Rossa Quinlana i jego następców, C4.5 i C5.0 oraz drzewa klasyfikacji i regresji (CART). Metody uczenia się zespołowego, takie jak Random Forests, pomagają przezwyciężyć powszechną krytykę tych metod – ich podatność na nadmierne dopasowanie danych – poprzez zastosowanie różnych algorytmów i łączenie w jakiś sposób ich wyników.

W tym artykule skupiono się na partycjonowaniu rekurencyjnym na potrzeby medycznych testów diagnostycznych , ale technika ta ma znacznie szersze zastosowania. Zobacz drzewo decyzyjne .

W porównaniu z analizą regresji, która tworzy formułę, którą pracownicy służby zdrowia mogą wykorzystać do obliczenia prawdopodobieństwa choroby pacjenta, podział rekurencyjny tworzy regułę taką jak: „Jeśli pacjent znajdzie x, y lub z, prawdopodobnie ma chorobę Q'.

Odmianą jest „liniowe partycjonowanie rekurencyjne Coxa”.

Zalety i wady

W porównaniu z innymi metodami wielozmiennymi, partycjonowanie rekurencyjne ma zalety i wady.

  • Zalety to:
    • Generuje klinicznie bardziej intuicyjne modele, które nie wymagają od użytkownika wykonywania obliczeń.
    • Umożliwia różne ustalanie priorytetów błędnych klasyfikacji w celu stworzenia reguły decyzyjnej o większej czułości i specyficzności .
    • Może być dokładniejsze.
  • Wady to:
    • Nie działa dobrze w przypadku zmiennych ciągłych
    • Może nadmiernie dopasować dane.

Przykłady

Dostępne są przykłady wykorzystania partycjonowania rekurencyjnego w badaniach testów diagnostycznych. Goldman zastosował podział rekurencyjny, aby nadać priorytet czułości w diagnostyce zawału mięśnia sercowego wśród pacjentów z bólem w klatce piersiowej na izbie przyjęć.

Zobacz też