Klasyfikacja statystyczna

W statystyce klasyfikacja jest problemem identyfikacji, do którego zestawu kategorii ( subpopulacji) należy obserwacja (lub obserwacje). Przykładami są przypisanie danego e-maila do klasy „spam” lub „niespam” oraz przypisanie diagnozy danemu pacjentowi na podstawie zaobserwowanych cech pacjenta (płeć, ciśnienie krwi, obecność lub brak pewnych objawów itp.) .

Często poszczególne obserwacje są analizowane pod kątem zbioru wymiernych właściwości, zwanych różnie zmiennymi objaśniającymi lub cechami . Właściwości te mogą być różnie kategoryczne (np. „A”, „B”, „AB” lub „O” dla grupy krwi ), porządkowe (np. „duży”, „średni” lub „mały”), całkowite (np. liczba wystąpień danego słowa w wiadomości e-mail ) lub wartości rzeczywistych (np. pomiar ciśnienia krwi ). Inne klasyfikatory działają na zasadzie porównywania obserwacji z poprzednimi obserwacjami za pomocą podobieństwa lub odległości .

Algorytm , który implementuje klasyfikację, zwłaszcza w konkretnej implementacji, jest znany jako klasyfikator . Termin „klasyfikator” czasami odnosi się również do funkcji matematycznej , realizowanej przez algorytm klasyfikacji, która odwzorowuje dane wejściowe na kategorię.

Terminologia w różnych dziedzinach jest dość zróżnicowana. W statystyce , gdzie klasyfikacji często dokonuje się za pomocą regresji logistycznej lub podobnej procedury, właściwości obserwacji nazywane są zmiennymi objaśniającymi (lub zmiennymi niezależnymi , regresorami itp.), a przewidywane kategorie znane są jako wyniki, które uważa się za być możliwymi wartościami zmiennej zależnej . W uczeniu maszynowym obserwacje są często nazywane instancjami , a zmienne objaśniające nazywane są cechami (pogrupowane w wektor cech ), a możliwymi do przewidzenia kategoriami są klasy . Inne dziedziny mogą używać innej terminologii: np. w ekologii społeczności termin „klasyfikacja” zwykle odnosi się do analizy skupień .

Stosunek do innych problemów

Klasyfikacja i grupowanie to przykłady bardziej ogólnego problemu rozpoznawania wzorców , który polega na przypisaniu pewnego rodzaju wartości wyjściowej do danej wartości wejściowej. Inne przykłady to regresja , która przypisuje dane wyjściowe o wartości rzeczywistej do każdego wejścia; etykietowanie sekwencji , które przypisuje klasę każdemu członowi sekwencji wartości (na przykład oznaczanie części mowy , które przypisuje część mowy do każdego słowa w zdaniu wejściowym); parsing , który przypisuje drzewo analizy do zdania wejściowego, opisującego strukturę składniową zdania; itp.

Powszechną podklasą klasyfikacji jest klasyfikacja probabilistyczna . Algorytmy tego rodzaju wykorzystują wnioskowanie statystyczne w celu znalezienia najlepszej klasy dla danej instancji. W przeciwieństwie do innych algorytmów, które po prostu zwracają „najlepszą” klasę, algorytmy probabilistyczne generują prawdopodobieństwo przynależności instancji do każdej z możliwych klas. Najlepsza klasa jest wtedy zwykle wybierana jako ta z najwyższym prawdopodobieństwem. Jednak taki algorytm ma wiele zalet w porównaniu z klasyfikatorami nieprobabilistycznymi:

  • Może wyprowadzić wartość ufności powiązaną z jego wyborem (ogólnie rzecz biorąc, klasyfikator, który może to zrobić, jest znany jako klasyfikator ważony ufnością ).
  • Odpowiednio, może wstrzymać się od głosu , gdy jego pewność wyboru konkretnego produktu jest zbyt niska.
  • Ze względu na generowane prawdopodobieństwa klasyfikatory probabilistyczne można skuteczniej włączać do większych zadań uczenia maszynowego, w sposób częściowo lub całkowicie unikający problemu propagacji błędów .

Procedury frekwencjonistyczne

Wczesne prace nad klasyfikacją statystyczną podjął Fisher w kontekście problemów z dwiema grupami, co doprowadziło do przyjęcia liniowej funkcji dyskryminacyjnej Fishera jako reguły przypisywania grupy do nowej obserwacji. Ta wczesna praca zakładała, że ​​wartości danych w każdej z dwóch grup mają wielowymiarowy rozkład normalny . Rozważono również rozszerzenie tego samego kontekstu na więcej niż dwie grupy, z zastrzeżeniem, że reguła klasyfikacji powinna być liniowa . Późniejsze prace nad wielowymiarowym rozkładem normalnym pozwoliły, aby klasyfikator był nieliniowy : można wyprowadzić kilka reguł klasyfikacji na podstawie różnych korekt odległości Mahalanobisa , przy czym nowa obserwacja jest przypisywana do grupy, której środek ma najniższą skorygowaną odległość od obserwacji.

Procedury bayesowskie

W przeciwieństwie do procedur częstości, procedury klasyfikacji bayesowskiej zapewniają naturalny sposób uwzględnienia wszelkich dostępnych informacji o względnych rozmiarach różnych grup w całej populacji. Procedury bayesowskie są zwykle kosztowne obliczeniowo, aw czasach przed Monte Carlo łańcucha Markowa opracowano przybliżenia reguł grupowania bayesowskiego.

Niektóre procedury bayesowskie obejmują obliczanie prawdopodobieństw członkostwa w grupie : zapewniają one bardziej informacyjny wynik niż proste przypisanie pojedynczej etykiety grupowej do każdej nowej obserwacji.

Klasyfikacja binarna i wieloklasowa

Klasyfikacja może być traktowana jako dwa odrębne problemy — klasyfikacja binarna i klasyfikacja wieloklasowa . W klasyfikacji binarnej, która jest lepiej rozumianym zadaniem, zaangażowane są tylko dwie klasy, podczas gdy klasyfikacja wieloklasowa obejmuje przypisanie obiektu do jednej z kilku klas. Ponieważ wiele metod klasyfikacji zostało opracowanych specjalnie dla klasyfikacji binarnej, klasyfikacja wieloklasowa często wymaga łącznego użycia wielu klasyfikatorów binarnych.

Wektory cech

Większość algorytmów opisuje pojedynczą instancję, której kategorię należy przewidzieć za pomocą wektora cech indywidualnych, mierzalnych właściwości instancji. Każda właściwość jest określana jako cecha , znana również w statystyce jako zmienna objaśniająca (lub zmienna niezależna , chociaż cechy mogą, ale nie muszą, być statystycznie niezależne ). Funkcje mogą być różnie binarne (np. „włączone” lub „wyłączone”); kategoryczne (np. „A”, „B”, „AB” lub „O” dla grupy krwi ); porządkowy (np. „duży”, „średni” lub „mały”); o wartościach całkowitych (np. liczba wystąpień danego słowa w wiadomości e-mail); lub wartości rzeczywistych (np. pomiar ciśnienia krwi). Jeśli instancja jest obrazem, wartości funkcji mogą odpowiadać pikselom obrazu; jeśli instancja jest fragmentem tekstu, wartościami cech mogą być częstotliwości występowania różnych słów. Niektóre algorytmy działają tylko na danych dyskretnych i wymagają dyskretyzacji danych o wartościach rzeczywistych lub całkowitych na grupy (np. mniej niż 5, między 5 a 10 lub więcej niż 10).

Klasyfikatory liniowe

Wiele algorytmów klasyfikacji można sformułować w postaci funkcji liniowej , która przypisuje wynik każdej możliwej kategorii k , łącząc wektor cech instancji z wektorem wag, używając iloczynu skalarnego . Przewidywana kategoria to ta z najwyższym wynikiem. Ten typ funkcji punktacji jest znany jako liniowa funkcja predykcyjna i ma następującą ogólną postać:

gdzie X i jest wektorem cech na przykład i , β k jest wektorem wag odpowiadającym kategorii k , a ocena ( X i , k ) jest oceną związaną z przypisaniem instancji i do kategorii k . W dyskretnych wyborów , gdzie instancje reprezentują osoby, a kategorie wybory, wynik jest uważany za użyteczność związaną z wybraniem przez osobę kategorii k .

Algorytmy z tą podstawową konfiguracją są znane jako klasyfikatory liniowe . Tym, co je wyróżnia, jest procedura wyznaczania (trenowania) optymalnych wag/współczynników oraz sposób interpretacji wyniku.

Przykłady takich algorytmów obejmują

Algorytmy

Ponieważ żadna pojedyncza forma klasyfikacji nie jest odpowiednia dla wszystkich zestawów danych, opracowano duży zestaw algorytmów klasyfikacji. Do najczęściej stosowanych należą:

Ocena

Wydajność klasyfikatora zależy w dużym stopniu od charakterystyki danych, które mają być sklasyfikowane. Nie ma jednego klasyfikatora, który najlepiej sprawdzałby się we wszystkich zadanych problemach (zjawisko, które można wytłumaczyć twierdzeniem o braku darmowego obiadu ). Przeprowadzono różne testy empiryczne, aby porównać wydajność klasyfikatora i znaleźć cechy danych, które określają wydajność klasyfikatora. Określenie odpowiedniego klasyfikatora dla danego problemu jest jednak bardziej sztuką niż nauką.

Miary precyzji i przypominania są popularnymi miernikami używanymi do oceny jakości systemu klasyfikacji. Niedawno charakterystyki operacyjnej odbiornika (ROC) zostały wykorzystane do oceny kompromisu między wskaźnikami prawdziwie i fałszywie dodatnich algorytmów klasyfikacji.

Jako miernik wydajności, współczynnik niepewności ma przewagę nad prostą dokładnością , ponieważ nie ma na niego wpływu względne rozmiary różnych klas. Co więcej, nie będzie karać algorytmu za proste przestawienie klas.

Domeny aplikacji

Klasyfikacja ma wiele zastosowań. W niektórych z nich stosuje się ją jako eksploracji danych , podczas gdy w innych podejmuje się bardziej szczegółowe modelowanie statystyczne.

Zobacz też