Skalowanie Platta
Część serii poświęconej |
uczeniu maszynowemu i eksploracji danych |
---|
W uczeniu maszynowym skalowanie Platta lub kalibracja Platta to sposób przekształcania danych wyjściowych modelu klasyfikacyjnego w rozkład prawdopodobieństwa w klasach . Metoda została wynaleziona przez Johna Platta w kontekście maszyn wektorów nośnych , zastępując wcześniejszą metodę Vapnika , ale może być zastosowana do innych modeli klasyfikacji. Skalowanie Platta działa poprzez dopasowanie regresji logistycznej do wyników klasyfikatora.
Opis
Rozważmy problem klasyfikacji binarnej : dla danych wejściowych x chcemy określić, czy należą one do jednej z dwóch klas, dowolnie oznaczonych +1 i −1 . Zakładamy, że problem klasyfikacji zostanie rozwiązany przez funkcję f o wartościach rzeczywistych , przewidującą etykietę klasy y = znak( f ( x )) . W przypadku wielu problemów wygodnie jest uzyskać prawdopodobieństwo. , czyli klasyfikację, która nie tylko daje odpowiedź, ale także pewien stopień pewności co do odpowiedzi. Niektóre modele klasyfikacyjne nie zapewniają takiego prawdopodobieństwa lub dają słabe oszacowania prawdopodobieństwa.
Skalowanie Platta jest algorytmem rozwiązującym powyższy problem. Tworzy oszacowania prawdopodobieństwa
- ,
tj. transformacja logistyczna ocen klasyfikatora f ( x ) , gdzie A i B to dwa parametry skalarne , których algorytm uczy się. Zauważ, że można teraz przewidywać zgodnie z jeśli oszacowania prawdopodobieństwa zawierają poprawkę w porównaniu ze starą funkcją decyzyjną y = znak ( fa ( x )} .
Parametry A i B są szacowane przy użyciu metody największej wiarygodności , która optymalizuje na tym samym zbiorze treningowym, co dla pierwotnego klasyfikatora f . Aby uniknąć nadmiernego dopasowania do tego zestawu, można zastosować wstrzymany zestaw kalibracyjny lub walidację krzyżową , ale Platt dodatkowo sugeruje przekształcenie etykiet y na docelowe prawdopodobieństwa
- próbek dodatnich ( y = 1 ) i
- dla próbek ujemnych, y = -1 .
Tutaj N + i N - to odpowiednio liczba próbek dodatnich i ujemnych. Ta transformacja następuje poprzez zastosowanie reguły Bayesa do modelu danych poza próbą, który ma jednolity priorytet w stosunku do etykiet. Stałe 1 i 2, odpowiednio w liczniku i mianowniku, pochodzą z zastosowania wygładzania Laplace'a .
Sam Platt zasugerował użycie algorytmu Levenberga-Marquardta do optymalizacji parametrów, ale później zaproponowano algorytm Newtona , który powinien być bardziej stabilny numerycznie .
Analiza
Wykazano, że skalowanie Platta jest skuteczne w przypadku maszyn SVM, a także innych typów modeli klasyfikacyjnych, w tym modeli wzmocnionych , a nawet naiwnych klasyfikatorów Bayesa , które dają zniekształcone rozkłady prawdopodobieństwa. Jest to szczególnie skuteczne w przypadku metod maksymalnego marginesu, takich jak SVM i wzmocnione drzewa, które wykazują sigmoidalne zniekształcenia przewidywanych prawdopodobieństw, ale mają mniejszy efekt w przypadku dobrze skalibrowanych modeli, takich jak regresja logistyczna , perceptrony wielowarstwowe i losowe lasy .
Alternatywnym podejściem do kalibracji prawdopodobieństwa jest dopasowanie modelu regresji izotonicznej do źle skalibrowanego modelu prawdopodobieństwa. Wykazano, że działa to lepiej niż skalowanie Platta, zwłaszcza gdy dostępna jest wystarczająca ilość danych treningowych.
Zobacz też
- Maszyna wektorów istotności : probabilistyczna alternatywa dla maszyny wektorów nośnych