Model dyskryminacyjny
Modele dyskryminacyjne , zwane również modelami warunkowymi , to klasa modeli logistycznych używanych do klasyfikacji lub regresji. Rozróżniają granice decyzyjne na podstawie obserwowanych danych, takich jak sukces/niepowodzenie, wygrana/przegrana, żywy/martwy lub zdrowy/chory.
Typowe modele dyskryminacyjne obejmują regresję logistyczną (LR), warunkowe pola losowe (CRF) (określone na grafie nieskierowanym), drzewa decyzyjne i wiele innych. Typowe podejścia do modeli generatywnych obejmują naiwne klasyfikatory Bayesa , modele mieszanek Gaussa , autoenkodery wariacyjne , generatywne sieci przeciwstawne i inne.
Definicja
W przeciwieństwie do modelowania generatywnego, które bada prawdopodobieństwo , dyskryminacyjne bada odwzorowuje dane nieobserwowana zmienna (cel) zależnej od obserwowanych zmiennych (próbki szkoleniowe) Na przykład w rozpoznawaniu obiektów prawdopodobnie będzie wektorem nieprzetworzonych pikseli (lub cech wyodrębnionych z nieprzetworzonych pikseli . W ramach probabilistycznych odbywa się to poprzez modelowanie można wykorzystać do przewidywania podstawie . Należy zauważyć, że nadal istnieje rozróżnienie między modelem warunkowym a modelem dyskryminacyjnym, chociaż częściej są one po prostu klasyfikowane jako model dyskryminacyjny.
Czysty model dyskryminacyjny a model warunkowy
Model warunkowy modeluje warunkowy rozkład prawdopodobieństwa, podczas gdy tradycyjny model dyskryminacyjny ma na celu optymalizację mapowania danych wejściowych wokół najbardziej podobnych wyszkolonych próbek.
Typowe podejścia do modelowania dyskryminacyjnego
Poniższe podejście opiera się na założeniu, że dany jest zestaw danych treningowych { jest odpowiednim wyjściem dla wejścia .
Klasyfikator liniowy
Zamierzamy użyć funkcji do , co zaobserwowaliśmy na podstawie uczącego zbioru liniowego . Używając wspólnego wektora cech , funkcja decyzyjna jest zdefiniowana jako:
z interpretacją Memisevica, , która jest również wynik, który mierzy zgodność potencjalnym . Następnie określa klasę z najwyższym wynikiem.
Regresja logistyczna (LR)
Ponieważ funkcja 0-1 jest powszechnie stosowana w teorii decyzji, rozkład prawdopodobieństwa warunkowego , gdzie } wektor parametrów do optymalizacji danych treningowych można ponownie rozważyć w następujący sposób dla modelu regresji logistycznej:
- , gdzie
Powyższe równanie reprezentuje regresję logistyczną . Zauważ, że główną różnicą między modelami jest sposób wprowadzania prawdopodobieństwa a posteriori. Prawdopodobieństwo a posteriori jest wywnioskowane z modelu parametrycznego. Następnie możemy zmaksymalizować parametr za pomocą następującego równania:
Można to również zastąpić poniższym równaniem log-strat :
Ponieważ strata logarytmiczna jest różniczkowalna, do optymalizacji modelu można zastosować metodę opartą na gradiencie. Globalne optimum jest gwarantowane, ponieważ funkcja celu jest wypukła. Gradient prawdopodobieństwa logarytmicznego jest reprezentowany przez:
mi jest oczekiwaniem .
Powyższa metoda zapewni wydajne obliczenia dla stosunkowo niewielkiej liczby klasyfikacji.
Porównaj z modelem generatywnym
Kontrast w podejściach
mamy etykiety klas ( ) i , , jako próbki szkoleniowe.
Model generatywny przyjmuje wspólne prawdopodobieństwo , gdzie jest wejściowymi, a i przewiduje najbardziej możliwe znana etykieta dla nieznanej zmiennej przy użyciu twierdzenia Bayesa .
Modele dyskryminacyjne, w przeciwieństwie do modeli generatywnych , nie pozwalają na generowanie próbek z łącznego rozkładu zmiennych obserwowanych i docelowych. Jednak w przypadku zadań takich jak klasyfikacja i regresja , które nie wymagają łącznego rozkładu, modele dyskryminacyjne mogą zapewnić lepszą wydajność (po części dlatego, że mają mniej zmiennych do obliczenia). Z drugiej strony modele generatywne są zazwyczaj bardziej elastyczne niż modele dyskryminacyjne w wyrażaniu zależności w złożonych zadaniach uczenia się. Ponadto większość modeli dyskryminacyjnych jest z natury nadzorowana i nie może łatwo wspierać uczenia się bez nadzoru . Szczegóły specyficzne dla aplikacji ostatecznie decydują o przydatności wyboru modelu dyskryminacyjnego lub generatywnego.
Modele dyskryminacyjne i modele generatywne różnią się także wprowadzaniem późniejszej możliwości . Aby zachować najmniej oczekiwaną stratę, należy dążyć do minimalizacji błędnej klasyfikacji wyniku. modelu dyskryminacyjnym późniejsze prawdopodobieństwa z modelu parametrycznego, w którym parametry pochodzą Punkty estymacji parametrów uzyskuje się z obliczeń maksymalizacji wiarygodności lub rozkładu parametrów. Z drugiej strony, biorąc pod uwagę, że modele generatywne koncentrują się na prawdopodobieństwie łącznym, w twierdzeniu Bayesa rozważa się możliwość a posteriori klasy P ( k
- .
Zalety i wady zastosowania
W powtarzanych eksperymentach regresja logistyczna i naiwny Bayes są tutaj stosowane dla różnych modeli zadania klasyfikacji binarnej, uczenie dyskryminacyjne skutkuje mniejszymi błędami asymptotycznymi, podczas gdy generatywne skutkuje szybszym wyższymi błędami asymptotycznymi. Jednak we wspólnej pracy Ulusoya i Bishopa, Comparison of Generative and Discriminative Techniques for Object Detection and Classification , stwierdzają oni, że powyższe stwierdzenie jest prawdziwe tylko wtedy, gdy model jest odpowiedni dla danych (tj. rozkład danych jest prawidłowo modelowany przez model generatywny ).
Zalety
Istotnymi zaletami stosowania modelowania dyskryminacyjnego są:
- Większa dokładność, co w większości przekłada się na lepsze wyniki w nauce.
- Pozwala na uproszczenie danych wejściowych i zapewnia bezpośrednie podejście do
- Zapisuje zasoby obliczeniowe
- Generuje mniejsze błędy asymptotyczne
W porównaniu z zaletami stosowania modelowania generatywnego:
- Bierze pod uwagę wszystkie dane, co może skutkować wolniejszym przetwarzaniem jako wadą
- Wymaga mniejszej liczby próbek treningowych
- Elastyczny framework, który z łatwością może współpracować z innymi potrzebami aplikacji
Niedogodności
- Metoda uczenia zwykle wymaga wielu technik optymalizacji numerycznej
- Podobnie z definicji model dyskryminacyjny będzie wymagał połączenia wielu podzadań w celu rozwiązania złożonego problemu w świecie rzeczywistym
Optymalizacje w aplikacjach
Ponieważ oba sposoby modelowania mają zarówno zalety, jak i wady, połączenie obu podejść będzie w praktyce dobrym modelowaniem. Na przykład w artykule Marrasa A Joint Discriminative Generative Model for Deformable Model Construction and Classification on i jego współautorzy stosują kombinację dwóch modeli w klasyfikacji twarzy modeli i uzyskują wyższą dokładność niż w przypadku tradycyjnego podejścia.
Podobnie Kelm zaproponował również połączenie dwóch modeli klasyfikacji pikseli w swoim artykule Łączenie metod generatywnych i dyskryminacyjnych do klasyfikacji pikseli z uczeniem wielowarunkowym .
Podczas procesu wyodrębniania cech dyskryminacyjnych przed grupowaniem, analiza głównych składowych (PCA), choć powszechnie stosowana, niekoniecznie jest podejściem dyskryminacyjnym. Natomiast LDA ma charakter dyskryminacyjny. Liniowa analiza dyskryminacyjna (LDA) zapewnia skuteczny sposób na wyeliminowanie wady, którą wymieniliśmy powyżej. Jak wiemy, model dyskryminacyjny wymaga kombinacji wielu podzadań przed klasyfikacją, a LDA zapewnia odpowiednie rozwiązanie tego problemu poprzez redukcję wymiarów.
typy
Przykłady modeli dyskryminacyjnych obejmują:
- Regresja logistyczna , rodzaj uogólnionej regresji liniowej używanej do przewidywania wyników binarnych lub kategorycznych (znanych również jako klasyfikatory maksymalnej entropii )
- Wzmacnianie (meta-algorytm)
- Warunkowe pola losowe
- Regresja liniowa
- Losowe lasy