Klasyfikacja danych (wywiad gospodarczy)
W analizie biznesowej klasyfikacja danych jest ściśle powiązana z grupowaniem danych , ale tam, gdzie klastrowanie danych ma charakter opisowy , klasyfikacja danych ma charakter predykcyjny . W istocie klasyfikacja danych polega na wykorzystaniu zmiennych o znanych wartościach do przewidywania nieznanych lub przyszłych wartości innych zmiennych. Może być wykorzystany np. w marketingu bezpośrednim , wykrywaniu oszustw ubezpieczeniowych czy diagnostyce medycznej .
Pierwszym krokiem w klasyfikacji danych jest klastrowanie zestawu danych używanego do szkolenia kategorii, aby utworzyć pożądaną liczbę kategorii. Algorytm , zwany klasyfikatorem , jest następnie używany do kategorii, tworząc opisowy model dla każdej kategorii . Modele te można następnie wykorzystać do kategoryzowania nowych pozycji w utworzonym systemie klasyfikacji.
Skuteczność
Według Golfarelli i Rizzi są to miary skuteczności klasyfikatora:
- Predykcyjna dokładność : jak dobrze przewiduje kategorie dla nowych obserwacji?
- Szybkość : Jaki jest koszt obliczeniowy korzystania z klasyfikatora?
- Solidność : jak dobrze działają utworzone modele, jeśli jakość danych jest niska?
- Skalowalność : czy klasyfikator działa wydajnie w przypadku dużych ilości danych?
- Interpretowalność : czy wyniki są zrozumiałe dla użytkowników?
Typowymi przykładami danych wejściowych do klasyfikacji danych mogą być zmienne, takie jak dane demograficzne , informacje o stylu życia lub zachowania ekonomiczne.
Wyzwania
Praca z klasyfikacją danych wiąże się z kilkoma wyzwaniami. Jednym z nich jest w szczególności to, że dla wszystkich korzystających z kategorii dotyczących np. klientów lub klientów konieczne jest wykonanie modelowania w procesie iteracyjnym. Ma to na celu zapewnienie, że zmiany w charakterystyce grup klientów nie pozostaną niezauważone, powodując, że istniejące kategorie staną się przestarzałe i przestarzałe, czego nikt nie zauważy.
Może to mieć szczególne znaczenie dla firm ubezpieczeniowych lub bankowych , w których wykrywanie oszustw jest niezwykle istotne. Nowe wzorce oszustw mogą pozostać niezauważone, jeśli nie zostaną opracowane i wdrożone metody monitorowania tych zmian i ostrzegania o zmianach, zaniku kategorii lub pojawieniu się nowych kategorii.