Wzrost (eksploracja danych)

W eksploracji danych i uczeniu się reguł asocjacyjnych wzrost jest miarą wydajności modelu kierowania ( reguły asocjacji) w przewidywaniu lub klasyfikowaniu przypadków jako wykazujących zwiększoną odpowiedź ( w odniesieniu do całej populacji), mierzonym w odniesieniu do losowego wyboru kierowania Model. Model kierowania $)$ $)$ , jeśli odpowiedź w grupie docelowej ( jest znacznie lepsza niż średnia bazowa ( dla całej populacji. Wzrost to po prostu stosunek tych wartości: odpowiedź docelowa podzielona przez średnią odpowiedź. Matematycznie,

{\ Displaystyle \ nazwa operatora {winda} = {\ Frac {P (T \ mid B)} {P (T)}}={\frac {P(T\klin B)}{P(T)P(B)}}}

Załóżmy na przykład, że populacja ma średni wskaźnik odpowiedzi równy 5%, ale pewien model (lub reguła) zidentyfikował segment ze współczynnikiem odpowiedzi równym 20%. Wówczas ten segment odnotowałby wzrost o 4,0 (20%/5%).

Aplikacje

Zazwyczaj modelarz stara się podzielić populację na kwantyle i uszeregować kwantyle według wzrostu. Organizacje mogą następnie rozważyć każdy kwantyl i porównując przewidywany wskaźnik odpowiedzi (i związane z nim korzyści finansowe) z kosztami, mogą zdecydować, czy wprowadzić na rynek ten kwantyl, czy nie.

Krzywą wzniosu można również uznać za odmianę krzywej charakterystyki działania odbiornika (ROC) i jest ona również znana w ekonometrii jako krzywa Lorenza lub krzywa mocy.

Przykład

Załóżmy, że wydobywany zestaw danych to:

Poprzednik	Następnik
A	0
_	0
A	1
A	0
B	1
B	0
B	1

gdzie poprzednik to zmienna wejściowa, którą możemy kontrolować, a następnik to zmienna, którą próbujemy przewidzieć. Prawdziwe problemy związane z wydobyciem zwykle mają bardziej złożone poprzedniki, ale zwykle koncentrują się na konsekwencjach jednej wartości.

Większość algorytmów eksploracji określałaby następujące reguły (modele targetowania):

Zasada 1: A implikuje 0
Zasada 2: B implikuje 1

ponieważ są to po prostu najczęstsze wzorce znalezione w danych. Prosty przegląd powyższej tabeli powinien sprawić, że zasady te staną się oczywiste.

Poparcie dla reguły 1 wynosi 3/7, ponieważ jest to liczba elementów w zbiorze danych, w których poprzednikiem jest A, a następnikiem 0. Poparcie dla reguły 2 wynosi 2/7, ponieważ dwa z siedmiu rekordów spełniają poprzednik B i następnik 1. Podpory można zapisać jako:

{\ Displaystyle \ nazwa operatora {supp} (A \ Strzałka w prawo 0) = P (A \ ląd 0)=P(A)P(0\mid A)=P(0)P(A\mid 0)}

{\ Displaystyle \ operatorname {supp} (B \ Strzałka w prawo 1) = P (B \ ziemia 1) = P (B) P (1\mid B)=P(1)P(B\mid 1)}

Zaufanie dla reguły 1 wynosi 3/4, ponieważ trzy z czterech rekordów, które spełniają poprzednik A, spełniają następnik 0. Zaufanie dla reguły 2 wynosi 2/3, ponieważ dwa z trzech rekordów, które spełniają poprzednik B, spełniają następnik 1. Zaufania można zapisać jako:

{\ Displaystyle \ operatorname {conf} (A \ Strzałka w prawo 0) = P (0 \ mid A)}

{ \ displaystyle \ nazwa operatora {conf} (B \ Strzałka w prawo 1) = P (1 \ środek B)}

Wzrost można znaleźć, dzieląc pewność przez bezwarunkowe prawdopodobieństwo następnika lub dzieląc wsparcie przez prawdopodobieństwo poprzednika razy prawdopodobieństwo następnika, więc:

Winda dla reguły 1 to (3/4)/(4/7) = (3*7)/(4 * 4) = 21/16 ≈ 1,31
Winda dla Reguły 2 to (2/3)/(3/7) = (2*7)/(3 * 3) = 14/9 ≈ 1,56

{\ Displaystyle \ operatorname {winda} (A \ Strzałka w prawo 0) = {\ Frac {P (0 \mid A)}{P(0)}}={\frac {P(A\land 0)}{P(A)P(0)}}}

{\ Displaystyle \ OperatorName {lift} (B \ Strzałka w prawo 1) = {\ Frac {P (1 \ środkowy B)} {P (1) }}={\frac {P(B\land 1)}{P(B)P(1)}}}

Gdyby jakaś reguła miała wzrost równy 1, oznaczałoby to, że prawdopodobieństwo wystąpienia poprzednika i następnika jest od siebie niezależne. Kiedy dwa zdarzenia są od siebie niezależne, nie można narysować żadnej reguły dotyczącej tych dwóch zdarzeń.

Jeśli wzrost jest > 1, tak jak w przypadku reguł 1 i 2, pozwala nam to poznać stopień, w jakim te dwa zdarzenia są od siebie zależne, i sprawia, że te reguły są potencjalnie przydatne do przewidywania następnika w przyszłych zbiorach danych.

Zauważ, że chociaż Reguła 1 ma większą pewność, ma niższą siłę nośną. Intuicyjnie wydaje się, że Reguła 1 jest bardziej wartościowa ze względu na większą pewność – wydaje się dokładniejsza (lepiej wspierana). Ale dokładność reguły niezależna od zbioru danych może być myląca. Wartość wzrostu polega na tym, że bierze pod uwagę zarówno pewność reguły, jak i ogólny zbiór danych.

^ Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making , Chichester, GB: John Wiley & Sons, przetłumaczone z francuskiego Data Mining et statistique décisionnelle (Éditions Technip, 2008)

Coppock, David S. (21.06.2002). „Dlaczego podnieść?” . Źródło 2015-07-05 .

Zobacz też

[1] Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making , Chichester, GB: John Wiley & Sons, przetłumaczone z francuskiego Data Mining et statistique décisionnelle (Éditions Technip, 2008)