Wzrost (eksploracja danych)
W eksploracji danych i uczeniu się reguł asocjacyjnych wzrost jest miarą wydajności modelu kierowania ( reguły asocjacji) w przewidywaniu lub klasyfikowaniu przypadków jako wykazujących zwiększoną odpowiedź ( w odniesieniu do całej populacji), mierzonym w odniesieniu do losowego wyboru kierowania Model. Model kierowania , jeśli odpowiedź w grupie docelowej ( jest znacznie lepsza niż średnia bazowa ( dla całej populacji. Wzrost to po prostu stosunek tych wartości: odpowiedź docelowa podzielona przez średnią odpowiedź. Matematycznie,
Załóżmy na przykład, że populacja ma średni wskaźnik odpowiedzi równy 5%, ale pewien model (lub reguła) zidentyfikował segment ze współczynnikiem odpowiedzi równym 20%. Wówczas ten segment odnotowałby wzrost o 4,0 (20%/5%).
Aplikacje
Zazwyczaj modelarz stara się podzielić populację na kwantyle i uszeregować kwantyle według wzrostu. Organizacje mogą następnie rozważyć każdy kwantyl i porównując przewidywany wskaźnik odpowiedzi (i związane z nim korzyści finansowe) z kosztami, mogą zdecydować, czy wprowadzić na rynek ten kwantyl, czy nie.
Krzywą wzniosu można również uznać za odmianę krzywej charakterystyki działania odbiornika (ROC) i jest ona również znana w ekonometrii jako krzywa Lorenza lub krzywa mocy.
Przykład
Załóżmy, że wydobywany zestaw danych to:
Poprzednik | Następnik |
---|---|
A | 0 |
_ | 0 |
A | 1 |
A | 0 |
B | 1 |
B | 0 |
B | 1 |
gdzie poprzednik to zmienna wejściowa, którą możemy kontrolować, a następnik to zmienna, którą próbujemy przewidzieć. Prawdziwe problemy związane z wydobyciem zwykle mają bardziej złożone poprzedniki, ale zwykle koncentrują się na konsekwencjach jednej wartości.
Większość algorytmów eksploracji określałaby następujące reguły (modele targetowania):
- Zasada 1: A implikuje 0
- Zasada 2: B implikuje 1
ponieważ są to po prostu najczęstsze wzorce znalezione w danych. Prosty przegląd powyższej tabeli powinien sprawić, że zasady te staną się oczywiste.
Poparcie dla reguły 1 wynosi 3/7, ponieważ jest to liczba elementów w zbiorze danych, w których poprzednikiem jest A, a następnikiem 0. Poparcie dla reguły 2 wynosi 2/7, ponieważ dwa z siedmiu rekordów spełniają poprzednik B i następnik 1. Podpory można zapisać jako:
Zaufanie dla reguły 1 wynosi 3/4, ponieważ trzy z czterech rekordów, które spełniają poprzednik A, spełniają następnik 0. Zaufanie dla reguły 2 wynosi 2/3, ponieważ dwa z trzech rekordów, które spełniają poprzednik B, spełniają następnik 1. Zaufania można zapisać jako:
Wzrost można znaleźć, dzieląc pewność przez bezwarunkowe prawdopodobieństwo następnika lub dzieląc wsparcie przez prawdopodobieństwo poprzednika razy prawdopodobieństwo następnika, więc:
- Winda dla reguły 1 to (3/4)/(4/7) = (3*7)/(4 * 4) = 21/16 ≈ 1,31
- Winda dla Reguły 2 to (2/3)/(3/7) = (2*7)/(3 * 3) = 14/9 ≈ 1,56
Gdyby jakaś reguła miała wzrost równy 1, oznaczałoby to, że prawdopodobieństwo wystąpienia poprzednika i następnika jest od siebie niezależne. Kiedy dwa zdarzenia są od siebie niezależne, nie można narysować żadnej reguły dotyczącej tych dwóch zdarzeń.
Jeśli wzrost jest > 1, tak jak w przypadku reguł 1 i 2, pozwala nam to poznać stopień, w jakim te dwa zdarzenia są od siebie zależne, i sprawia, że te reguły są potencjalnie przydatne do przewidywania następnika w przyszłych zbiorach danych.
Zauważ, że chociaż Reguła 1 ma większą pewność, ma niższą siłę nośną. Intuicyjnie wydaje się, że Reguła 1 jest bardziej wartościowa ze względu na większą pewność – wydaje się dokładniejsza (lepiej wspierana). Ale dokładność reguły niezależna od zbioru danych może być myląca. Wartość wzrostu polega na tym, że bierze pod uwagę zarówno pewność reguły, jak i ogólny zbiór danych.
- ^ Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making , Chichester, GB: John Wiley & Sons, przetłumaczone z francuskiego Data Mining et statistique décisionnelle (Éditions Technip, 2008)
- Coppock, David S. (21.06.2002). „Dlaczego podnieść?” . Źródło 2015-07-05 .