Klasyfikacja danych (wywiad gospodarczy)

W analizie biznesowej klasyfikacja danych jest ściśle powiązana z grupowaniem danych , ale tam, gdzie klastrowanie danych ma charakter opisowy , klasyfikacja danych ma charakter predykcyjny . W istocie klasyfikacja danych polega na wykorzystaniu zmiennych o znanych wartościach do przewidywania nieznanych lub przyszłych wartości innych zmiennych. Może być wykorzystany np. w marketingu bezpośrednim , wykrywaniu oszustw ubezpieczeniowych czy diagnostyce medycznej .

Pierwszym krokiem w klasyfikacji danych jest klastrowanie zestawu danych używanego do szkolenia kategorii, aby utworzyć pożądaną liczbę kategorii. Algorytm , zwany klasyfikatorem , jest następnie używany do kategorii, tworząc opisowy model dla każdej kategorii . Modele te można następnie wykorzystać do kategoryzowania nowych pozycji w utworzonym systemie klasyfikacji.

Skuteczność

Według Golfarelli i Rizzi są to miary skuteczności klasyfikatora:

  • Predykcyjna dokładność : jak dobrze przewiduje kategorie dla nowych obserwacji?
  • Szybkość : Jaki jest koszt obliczeniowy korzystania z klasyfikatora?
  • Solidność : jak dobrze działają utworzone modele, jeśli jakość danych jest niska?
  • Skalowalność : czy klasyfikator działa wydajnie w przypadku dużych ilości danych?
  • Interpretowalność : czy wyniki są zrozumiałe dla użytkowników?

Typowymi przykładami danych wejściowych do klasyfikacji danych mogą być zmienne, takie jak dane demograficzne , informacje o stylu życia lub zachowania ekonomiczne.

Wyzwania

Praca z klasyfikacją danych wiąże się z kilkoma wyzwaniami. Jednym z nich jest w szczególności to, że dla wszystkich korzystających z kategorii dotyczących np. klientów lub klientów konieczne jest wykonanie modelowania w procesie iteracyjnym. Ma to na celu zapewnienie, że zmiany w charakterystyce grup klientów nie pozostaną niezauważone, powodując, że istniejące kategorie staną się przestarzałe i przestarzałe, czego nikt nie zauważy.

Może to mieć szczególne znaczenie dla firm ubezpieczeniowych lub bankowych , w których wykrywanie oszustw jest niezwykle istotne. Nowe wzorce oszustw mogą pozostać niezauważone, jeśli nie zostaną opracowane i wdrożone metody monitorowania tych zmian i ostrzegania o zmianach, zaniku kategorii lub pojawieniu się nowych kategorii.