Klasyfikacja statystyczna
W statystyce klasyfikacja jest problemem identyfikacji, do którego zestawu kategorii ( subpopulacji) należy obserwacja (lub obserwacje). Przykładami są przypisanie danego e-maila do klasy „spam” lub „niespam” oraz przypisanie diagnozy danemu pacjentowi na podstawie zaobserwowanych cech pacjenta (płeć, ciśnienie krwi, obecność lub brak pewnych objawów itp.) .
Często poszczególne obserwacje są analizowane pod kątem zbioru wymiernych właściwości, zwanych różnie zmiennymi objaśniającymi lub cechami . Właściwości te mogą być różnie kategoryczne (np. „A”, „B”, „AB” lub „O” dla grupy krwi ), porządkowe (np. „duży”, „średni” lub „mały”), całkowite (np. liczba wystąpień danego słowa w wiadomości e-mail ) lub wartości rzeczywistych (np. pomiar ciśnienia krwi ). Inne klasyfikatory działają na zasadzie porównywania obserwacji z poprzednimi obserwacjami za pomocą podobieństwa lub odległości .
Algorytm , który implementuje klasyfikację, zwłaszcza w konkretnej implementacji, jest znany jako klasyfikator . Termin „klasyfikator” czasami odnosi się również do funkcji matematycznej , realizowanej przez algorytm klasyfikacji, która odwzorowuje dane wejściowe na kategorię.
Terminologia w różnych dziedzinach jest dość zróżnicowana. W statystyce , gdzie klasyfikacji często dokonuje się za pomocą regresji logistycznej lub podobnej procedury, właściwości obserwacji nazywane są zmiennymi objaśniającymi (lub zmiennymi niezależnymi , regresorami itp.), a przewidywane kategorie znane są jako wyniki, które uważa się za być możliwymi wartościami zmiennej zależnej . W uczeniu maszynowym obserwacje są często nazywane instancjami , a zmienne objaśniające nazywane są cechami (pogrupowane w wektor cech ), a możliwymi do przewidzenia kategoriami są klasy . Inne dziedziny mogą używać innej terminologii: np. w ekologii społeczności termin „klasyfikacja” zwykle odnosi się do analizy skupień .
Stosunek do innych problemów
Klasyfikacja i grupowanie to przykłady bardziej ogólnego problemu rozpoznawania wzorców , który polega na przypisaniu pewnego rodzaju wartości wyjściowej do danej wartości wejściowej. Inne przykłady to regresja , która przypisuje dane wyjściowe o wartości rzeczywistej do każdego wejścia; etykietowanie sekwencji , które przypisuje klasę każdemu członowi sekwencji wartości (na przykład oznaczanie części mowy , które przypisuje część mowy do każdego słowa w zdaniu wejściowym); parsing , który przypisuje drzewo analizy do zdania wejściowego, opisującego strukturę składniową zdania; itp.
Powszechną podklasą klasyfikacji jest klasyfikacja probabilistyczna . Algorytmy tego rodzaju wykorzystują wnioskowanie statystyczne w celu znalezienia najlepszej klasy dla danej instancji. W przeciwieństwie do innych algorytmów, które po prostu zwracają „najlepszą” klasę, algorytmy probabilistyczne generują prawdopodobieństwo przynależności instancji do każdej z możliwych klas. Najlepsza klasa jest wtedy zwykle wybierana jako ta z najwyższym prawdopodobieństwem. Jednak taki algorytm ma wiele zalet w porównaniu z klasyfikatorami nieprobabilistycznymi:
- Może wyprowadzić wartość ufności powiązaną z jego wyborem (ogólnie rzecz biorąc, klasyfikator, który może to zrobić, jest znany jako klasyfikator ważony ufnością ).
- Odpowiednio, może wstrzymać się od głosu , gdy jego pewność wyboru konkretnego produktu jest zbyt niska.
- Ze względu na generowane prawdopodobieństwa klasyfikatory probabilistyczne można skuteczniej włączać do większych zadań uczenia maszynowego, w sposób częściowo lub całkowicie unikający problemu propagacji błędów .
Procedury frekwencjonistyczne
Wczesne prace nad klasyfikacją statystyczną podjął Fisher w kontekście problemów z dwiema grupami, co doprowadziło do przyjęcia liniowej funkcji dyskryminacyjnej Fishera jako reguły przypisywania grupy do nowej obserwacji. Ta wczesna praca zakładała, że wartości danych w każdej z dwóch grup mają wielowymiarowy rozkład normalny . Rozważono również rozszerzenie tego samego kontekstu na więcej niż dwie grupy, z zastrzeżeniem, że reguła klasyfikacji powinna być liniowa . Późniejsze prace nad wielowymiarowym rozkładem normalnym pozwoliły, aby klasyfikator był nieliniowy : można wyprowadzić kilka reguł klasyfikacji na podstawie różnych korekt odległości Mahalanobisa , przy czym nowa obserwacja jest przypisywana do grupy, której środek ma najniższą skorygowaną odległość od obserwacji.
Procedury bayesowskie
W przeciwieństwie do procedur częstości, procedury klasyfikacji bayesowskiej zapewniają naturalny sposób uwzględnienia wszelkich dostępnych informacji o względnych rozmiarach różnych grup w całej populacji. Procedury bayesowskie są zwykle kosztowne obliczeniowo, aw czasach przed Monte Carlo łańcucha Markowa opracowano przybliżenia reguł grupowania bayesowskiego.
Niektóre procedury bayesowskie obejmują obliczanie prawdopodobieństw członkostwa w grupie : zapewniają one bardziej informacyjny wynik niż proste przypisanie pojedynczej etykiety grupowej do każdej nowej obserwacji.
Klasyfikacja binarna i wieloklasowa
Klasyfikacja może być traktowana jako dwa odrębne problemy — klasyfikacja binarna i klasyfikacja wieloklasowa . W klasyfikacji binarnej, która jest lepiej rozumianym zadaniem, zaangażowane są tylko dwie klasy, podczas gdy klasyfikacja wieloklasowa obejmuje przypisanie obiektu do jednej z kilku klas. Ponieważ wiele metod klasyfikacji zostało opracowanych specjalnie dla klasyfikacji binarnej, klasyfikacja wieloklasowa często wymaga łącznego użycia wielu klasyfikatorów binarnych.
Wektory cech
Większość algorytmów opisuje pojedynczą instancję, której kategorię należy przewidzieć za pomocą wektora cech indywidualnych, mierzalnych właściwości instancji. Każda właściwość jest określana jako cecha , znana również w statystyce jako zmienna objaśniająca (lub zmienna niezależna , chociaż cechy mogą, ale nie muszą, być statystycznie niezależne ). Funkcje mogą być różnie binarne (np. „włączone” lub „wyłączone”); kategoryczne (np. „A”, „B”, „AB” lub „O” dla grupy krwi ); porządkowy (np. „duży”, „średni” lub „mały”); o wartościach całkowitych (np. liczba wystąpień danego słowa w wiadomości e-mail); lub wartości rzeczywistych (np. pomiar ciśnienia krwi). Jeśli instancja jest obrazem, wartości funkcji mogą odpowiadać pikselom obrazu; jeśli instancja jest fragmentem tekstu, wartościami cech mogą być częstotliwości występowania różnych słów. Niektóre algorytmy działają tylko na danych dyskretnych i wymagają dyskretyzacji danych o wartościach rzeczywistych lub całkowitych na grupy (np. mniej niż 5, między 5 a 10 lub więcej niż 10).
Klasyfikatory liniowe
Wiele algorytmów klasyfikacji można sformułować w postaci funkcji liniowej , która przypisuje wynik każdej możliwej kategorii k , łącząc wektor cech instancji z wektorem wag, używając iloczynu skalarnego . Przewidywana kategoria to ta z najwyższym wynikiem. Ten typ funkcji punktacji jest znany jako liniowa funkcja predykcyjna i ma następującą ogólną postać:
Algorytmy z tą podstawową konfiguracją są znane jako klasyfikatory liniowe . Tym, co je wyróżnia, jest procedura wyznaczania (trenowania) optymalnych wag/współczynników oraz sposób interpretacji wyniku.
Przykłady takich algorytmów obejmują
-
Regresja logistyczna — model statystyczny dla binarnej zmiennej zależnej
- Wielomianowa regresja logistyczna — regresja dla więcej niż dwóch dyskretnych wyników
- Regresja probitowa - regresja statystyczna, w której zmienna zależna może przyjmować tylko dwie wartości, aby oszacować prawdopodobieństwo, że obserwacja o określonych cechach trafi do jednej z kategorii
- Algorytm perceptronu _
- Maszyna wektorów nośnych - zestaw metod nadzorowanego uczenia statystycznego
- Liniowa analiza dyskryminacyjna - metoda stosowana w statystyce, rozpoznawaniu wzorców i innych dziedzinach
Algorytmy
Ponieważ żadna pojedyncza forma klasyfikacji nie jest odpowiednia dla wszystkich zestawów danych, opracowano duży zestaw algorytmów klasyfikacji. Do najczęściej stosowanych należą:
- Sztuczne sieci neuronowe – Model obliczeniowy wykorzystywany w uczeniu maszynowym, oparty na połączonych, hierarchicznych funkcjach
- Boosting (meta-algorytm) – Metoda w uczeniu maszynowym
-
Uczenie się drzewa decyzyjnego – algorytm uczenia maszynowego
- Las losowy – metoda zespołowego uczenia maszynowego oparta na drzewie wyszukiwania binarnego
-
Programowanie genetyczne – technika, w której programy komputerowe są kodowane jako zestaw genów
- Programowanie ekspresji genów – algorytm ewolucyjny
- Programowanie wielu wyrażeń
- Liniowe programowanie genetyczne – rodzaj algorytmu programowania genetycznego
-
Estymacja jądra – Funkcja okna
- k-najbliższy sąsiad – Nieparametryczna metoda klasyfikacji
- Nauka kwantyzacji wektorowej
-
Klasyfikator liniowy – Klasyfikacja statystyczna w uczeniu maszynowym
- Wyróżnik liniowy Fishera - metoda stosowana w statystykach, rozpoznawaniu wzorców i innych dziedzinach
- Regresja logistyczna - Model statystyczny dla binarnej zmiennej zależnej
- Naiwny klasyfikator Bayesa – Probabilistyczny algorytm klasyfikacji
- Perceptron – Algorytm nadzorowanego uczenia się klasyfikatorów binarnych
- Klasyfikator kwadratowy – używany w uczeniu maszynowym do oddzielania pomiarów dwóch lub więcej klas obiektów
- Maszyna wektorów nośnych - Zestaw metod nadzorowanego uczenia statystycznego
Ocena
Wydajność klasyfikatora zależy w dużym stopniu od charakterystyki danych, które mają być sklasyfikowane. Nie ma jednego klasyfikatora, który najlepiej sprawdzałby się we wszystkich zadanych problemach (zjawisko, które można wytłumaczyć twierdzeniem o braku darmowego obiadu ). Przeprowadzono różne testy empiryczne, aby porównać wydajność klasyfikatora i znaleźć cechy danych, które określają wydajność klasyfikatora. Określenie odpowiedniego klasyfikatora dla danego problemu jest jednak bardziej sztuką niż nauką.
Miary precyzji i przypominania są popularnymi miernikami używanymi do oceny jakości systemu klasyfikacji. Niedawno charakterystyki operacyjnej odbiornika (ROC) zostały wykorzystane do oceny kompromisu między wskaźnikami prawdziwie i fałszywie dodatnich algorytmów klasyfikacji.
Jako miernik wydajności, współczynnik niepewności ma przewagę nad prostą dokładnością , ponieważ nie ma na niego wpływu względne rozmiary różnych klas. Co więcej, nie będzie karać algorytmu za proste przestawienie klas.
Domeny aplikacji
Klasyfikacja ma wiele zastosowań. W niektórych z nich stosuje się ją jako eksploracji danych , podczas gdy w innych podejmuje się bardziej szczegółowe modelowanie statystyczne.
- Klasyfikacja biologiczna – nauka o identyfikowaniu, opisywaniu, definiowaniu i nazywaniu grup organizmów biologicznych
- Biometryczne – Metryki związane z cechami ludzkimi identyfikacji celów przekierowań
-
Wizja komputerowa - Skomputeryzowana ekstrakcja informacji z obrazów
- Analiza obrazu medycznego i obrazowanie medyczne – Technika i proces tworzenia wizualnych reprezentacji wnętrza ciała
- Optyczne rozpoznawanie znaków - Komputerowe rozpoznawanie tekstu wizualnego
- Śledzenie wideo – znajdowanie lokalizacji w każdej klatce sekwencji wideo
- Scoring kredytowy – Wyrażenie numeryczne reprezentujące zdolność kredytową osoby
- Klasyfikacja dokumentów – Proces kategoryzacji dokumentów
-
i opracowywanie leków – Proces wprowadzania nowego leku farmaceutycznego na rynek
- Toksykogenomika
- Ilościowa zależność struktura-aktywność – ilościowa prognoza aktywności biologicznej, ekotoksykologicznej lub farmaceutycznej cząsteczki
- Geostatystyka – Dział statystyki zajmujący się zbiorami danych przestrzennych
- Rozpoznawanie pisma ręcznego — zdolność komputera do odbierania i interpretowania zrozumiałego pisma odręcznego
- Wyszukiwarki internetowe – system oprogramowania przeznaczony do wyszukiwania informacji na stronach WWW
- Klasyfikacja mikromacierzy
- Rozpoznawanie wzorców – Automatyczne rozpoznawanie wzorców i prawidłowości w danych
- System rekomendacji – System filtrowania informacji w celu przewidywania preferencji użytkowników
- Rozpoznawanie mowy – Automatyczna konwersja języka mówionego na tekst
- Statystyczne przetwarzanie języka naturalnego – Dziedzina językoznawstwa i informatyki
Zobacz też
- Sztuczna inteligencja – zdolność systemów do postrzegania, syntezy i wnioskowania informacji
- Klasyfikacja binarna – zadanie sklasyfikowania elementów danego zbioru na dwie grupy (przewidywanie, do której grupy należy każdy z nich) na podstawie reguły klasyfikacji
- Klasyfikacja wieloklasowa – problem klasyfikowania instancji do jednej z trzech lub więcej klas
- Prawdopodobieństwa przynależności do klasy
- Zasada klasyfikacji
- Przetwarzanie terminów złożonych
- Matryca zamieszania – Układ tabeli do wizualizacji wydajności; zwana także macierzą błędów
- Eksploracja danych – Proces wydobywania i odkrywania wzorców w dużych zbiorach danych
- Hurtownia danych – Scentralizowane przechowywanie wiedzy
- Logika rozmyta - System wnioskowania o niejasności
- Wyszukiwanie informacji – Pozyskiwanie zasobów informacyjnych odpowiednich do potrzeb informacyjnych
- Lista zestawów danych do badań nad uczeniem maszynowym
- Uczenie maszynowe — Badanie algorytmów, które poprawiają się automatycznie dzięki doświadczeniu
- System rekomendacji – System filtrowania informacji w celu przewidywania preferencji użytkowników