Wzrost (eksploracja danych)

W eksploracji danych i uczeniu się reguł asocjacyjnych wzrost jest miarą wydajności modelu kierowania ( reguły asocjacji) w przewidywaniu lub klasyfikowaniu przypadków jako wykazujących zwiększoną odpowiedź ( w odniesieniu do całej populacji), mierzonym w odniesieniu do losowego wyboru kierowania Model. Model kierowania , jeśli odpowiedź w grupie docelowej ( jest znacznie lepsza niż średnia bazowa ( dla całej populacji. Wzrost to po prostu stosunek tych wartości: odpowiedź docelowa podzielona przez średnią odpowiedź. Matematycznie,

Załóżmy na przykład, że populacja ma średni wskaźnik odpowiedzi równy 5%, ale pewien model (lub reguła) zidentyfikował segment ze współczynnikiem odpowiedzi równym 20%. Wówczas ten segment odnotowałby wzrost o 4,0 (20%/5%).

Aplikacje

Zazwyczaj modelarz stara się podzielić populację na kwantyle i uszeregować kwantyle według wzrostu. Organizacje mogą następnie rozważyć każdy kwantyl i porównując przewidywany wskaźnik odpowiedzi (i związane z nim korzyści finansowe) z kosztami, mogą zdecydować, czy wprowadzić na rynek ten kwantyl, czy nie.

Krzywą wzniosu można również uznać za odmianę krzywej charakterystyki działania odbiornika (ROC) i jest ona również znana w ekonometrii jako krzywa Lorenza lub krzywa mocy.

Przykład

Załóżmy, że wydobywany zestaw danych to:

Poprzednik Następnik
A 0
_ 0
A 1
A 0
B 1
B 0
B 1

gdzie poprzednik to zmienna wejściowa, którą możemy kontrolować, a następnik to zmienna, którą próbujemy przewidzieć. Prawdziwe problemy związane z wydobyciem zwykle mają bardziej złożone poprzedniki, ale zwykle koncentrują się na konsekwencjach jednej wartości.

Większość algorytmów eksploracji określałaby następujące reguły (modele targetowania):

  • Zasada 1: A implikuje 0
  • Zasada 2: B implikuje 1

ponieważ są to po prostu najczęstsze wzorce znalezione w danych. Prosty przegląd powyższej tabeli powinien sprawić, że zasady te staną się oczywiste.

Poparcie dla reguły 1 wynosi 3/7, ponieważ jest to liczba elementów w zbiorze danych, w których poprzednikiem jest A, a następnikiem 0. Poparcie dla reguły 2 wynosi 2/7, ponieważ dwa z siedmiu rekordów spełniają poprzednik B i następnik 1. Podpory można zapisać jako:

Zaufanie dla reguły 1 wynosi 3/4, ponieważ trzy z czterech rekordów, które spełniają poprzednik A, spełniają następnik 0. Zaufanie dla reguły 2 wynosi 2/3, ponieważ dwa z trzech rekordów, które spełniają poprzednik B, spełniają następnik 1. Zaufania można zapisać jako:

Wzrost można znaleźć, dzieląc pewność przez bezwarunkowe prawdopodobieństwo następnika lub dzieląc wsparcie przez prawdopodobieństwo poprzednika razy prawdopodobieństwo następnika, więc:

  • Winda dla reguły 1 to (3/4)/(4/7) = (3*7)/(4 * 4) = 21/16 ≈ 1,31
  • Winda dla Reguły 2 to (2/3)/(3/7) = (2*7)/(3 * 3) = 14/9 ≈ 1,56

Gdyby jakaś reguła miała wzrost równy 1, oznaczałoby to, że prawdopodobieństwo wystąpienia poprzednika i następnika jest od siebie niezależne. Kiedy dwa zdarzenia są od siebie niezależne, nie można narysować żadnej reguły dotyczącej tych dwóch zdarzeń.

Jeśli wzrost jest > 1, tak jak w przypadku reguł 1 i 2, pozwala nam to poznać stopień, w jakim te dwa zdarzenia są od siebie zależne, i sprawia, że ​​te reguły są potencjalnie przydatne do przewidywania następnika w przyszłych zbiorach danych.

Zauważ, że chociaż Reguła 1 ma większą pewność, ma niższą siłę nośną. Intuicyjnie wydaje się, że Reguła 1 jest bardziej wartościowa ze względu na większą pewność – wydaje się dokładniejsza (lepiej wspierana). Ale dokładność reguły niezależna od zbioru danych może być myląca. Wartość wzrostu polega na tym, że bierze pod uwagę zarówno pewność reguły, jak i ogólny zbiór danych.

  1. ^ Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making , Chichester, GB: John Wiley & Sons, przetłumaczone z francuskiego Data Mining et statistique décisionnelle (Éditions Technip, 2008)
  • Coppock, David S. (21.06.2002). „Dlaczego podnieść?” . Źródło 2015-07-05 .

Zobacz też