Regularyzacja poprzez filtrację widmową
Regularyzacja widmowa to dowolna klasa technik regularyzacji stosowanych w uczeniu maszynowym w celu kontrolowania wpływu szumu i zapobiegania nadmiernemu dopasowaniu . Regularyzację widmową można stosować w szerokim zakresie zastosowań, od usuwania rozmycia obrazów po klasyfikowanie wiadomości e-mail do folderów ze spamem i folderów innych niż spam. Na przykład w przykładzie klasyfikacji wiadomości e-mail można zastosować regularyzację widmową, aby zmniejszyć wpływ szumów i zapobiec nadmiernemu dopasowaniu, gdy system uczenia maszynowego jest szkolony na oznaczonym zestawie wiadomości e-mail, aby dowiedzieć się, jak odróżnić wiadomość spam od wiadomości niebędącej spamem oprócz.
Algorytmy regularyzacji widma opierają się na metodach, które zostały pierwotnie zdefiniowane i zbadane w teorii źle postawionych problemów odwrotnych (na przykład patrz ), koncentrując się na inwersji operatora liniowego (lub macierzy), który prawdopodobnie ma zły numer warunku lub nieograniczony odwrotność. W tym kontekście regularyzacja sprowadza się do zastąpienia pierwotnego operatora ograniczonym operatorem zwanym „operatorem regularyzacji”, którego numer warunku jest kontrolowany przez parametr regularyzacji, czego klasycznym przykładem jest regularyzacja Tichonowa . Aby zapewnić stabilność, ten parametr regularyzacji jest dostrajany w oparciu o poziom szumu. Główną ideą regularyzacji widmowej jest to, że każdy operator regularyzacji można opisać za pomocą rachunku spektralnego jako odpowiedniego filtru wartości własnych operatora definiującego problem, a rolą filtra jest „tłumienie zachowań oscylacyjnych odpowiadających małym wartościom własnym” . Dlatego każdy algorytm w klasie algorytmów regularyzacji widma jest zdefiniowany przez odpowiednią funkcję filtru (którą należy wyprowadzić dla tego konkretnego algorytmu). Trzy z najczęściej używanych algorytmów regularyzacji, dla których filtrowanie widmowe jest dobrze zbadane, to regularyzacja Tichonowa, Iteracja Landwebera i rozkład wartości osobliwych obciętych (TSVD). Jeśli chodzi o wybór parametru regularyzacji, przykłady potencjalnych metod obliczania tego parametru obejmują zasadę rozbieżności, uogólnioną walidację krzyżową i kryterium krzywej L.
Warto zauważyć, że pojęcie filtrowania widmowego badane w kontekście uczenia maszynowego jest ściśle powiązane z literaturą dotyczącą aproksymacji funkcji (w przetwarzaniu sygnałów).
Notacja
Zbiór treningowy definiuje się jako , gdzie jest macierzą wejściową jest wektorem wyjściowym. Tam, gdzie ma to zastosowanie, funkcja jądra jest oznaczona przez a oznaczona przez ma i oznacza odtwarzającą przestrzeń Hilberta jądra (RKHS) . Parametr regularyzacji jest .
(Uwaga: dla są przestrzeniami Hilberta, biorąc pod uwagę liniową , i fa ∈ operator ciągły załóż, że tym ustawieniu bezpośrednim danego a odwrotnym problemem byłoby rozwiązanie, pod uwagę . Jeśli rozwiązanie istnieje, jest unikalne i stabilne, problem odwrotny (tj. problem rozwiązania dla dobrze postawiony; w przeciwnym razie jest źle pozowana.)
Związek z teorią źle postawionych problemów odwrotnych
Związek pomiędzy problemem estymacji regularyzowanych najmniejszych kwadratów (RLS) (ustawienie regularyzacji Tichonowa) a teorią źle postawionych problemów odwrotnych jest przykładem powiązania algorytmów regularyzacji widmowej z teorią źle postawionych problemów odwrotnych.
Estymator RLS rozwiązuje
a RKHS pozwala wyrazić ten estymator RLS jako gdzie ( . Termin penalizacja służy do kontrolowania gładkości i zapobiegania nadmiernemu dopasowaniu. Od rozwiązania empirycznej minimalizacji ryzyka można zapisać jako tak, że dodanie funkcji kary prowadzi do następującej zmiany w systemie, którą należy rozwiązać:
W tym ustawieniu uczenia się macierz jądra można rozłożyć jako }
i _ Dlatego w początkowej fazie uczenia się obowiązuje:
Zatem w przypadku małych wartości własnych nawet niewielkie zaburzenia w danych mogą prowadzić do znacznych zmian w rozwiązaniu. Dlatego problem jest źle uwarunkowany, a rozwiązanie tego problemu RLS sprowadza się do stabilizacji prawdopodobnie źle uwarunkowanego problemu inwersji macierzy, który jest badany w teorii źle postawionych problemów odwrotnych; w obu problemach głównym problemem jest zajęcie się kwestią stabilności numerycznej.
Implementacja algorytmów
w klasie algorytmów regularyzacji widma jest zdefiniowany przez odpowiednią funkcję filtru Jeśli macierz jądra jest oznaczona jako powinna kontrolować wielkość mniejszych wartości własnych . Celem układu filtrującego jest znalezienie estymatorów gdzie do . funkcja definiuje się za pomocą rozkładu własnego macierzy jądra:
co daje
Zazwyczaj odpowiednia funkcja filtrująca powinna mieć następujące właściwości:
1. Gdy dąży do zera, .
Wielkość (mniejszych) kontrolowana przez
Chociaż powyższe elementy dają przybliżoną charakterystykę ogólnych właściwości funkcji filtra dla wszystkich algorytmów regularyzacji widmowej, wyprowadzenie funkcji filtru (a tym samym jej dokładna postać) różni się w zależności od konkretnej metody regularyzacji, do której stosuje się filtrowanie widmowe.
Funkcja filtra dla regularyzacji Tichonowa
W ustawieniu regularyzacji Tichonowa funkcja filtra dla RLS jest opisana poniżej. Jak pokazano w tym ustawieniu, . Zatem,
Niepożądane składniki są odfiltrowywane za pomocą regularyzacji:
- Jeśli , to .
- Jeśli , to .
Dlatego funkcję filtru dla regularyzacji Tichonowa definiuje się jako:
Funkcja filtra dla iteracji Landwebera
Ideą iteracji Landwebera jest zejście gradientowe :
W tym ustawieniu, jeśli niż , powyższa iteracja zbiega się, wybierając krok rozmiar:. Powyższa iteracja jest równoważna minimalizacji (tj. ryzyko empiryczne) poprzez opadanie gradientowe; za pomocą indukcji można udowodnić, że w -tej iteracji rozwiązanie jest podane przez
Zatem odpowiednią funkcję filtru definiuje się poprzez:
Można wykazać, że ta funkcja filtru odpowiada obciętemu rozszerzeniu mocy ; ; relacja _ przytrzymaj, jeśli zostanie zastąpiony macierzą; zatem, jeśli jądra), a raczej Uważa się, że zachodzi następująca sytuacja:
W tym ustawieniu liczba iteracji daje parametr regularyzacji; z grubsza mówiąc, . Jeśli , problemem może być nadmierne dopasowanie. Jeśli , problemem może być nadmierne wygładzenie. Zatem wybór odpowiedniego czasu na wcześniejsze zatrzymanie iteracji zapewnia efekt regularyzacji.
Funkcja filtra dla TSVD
uwagę rozkład własny i przy użyciu przepisanego progu , uzyskać uregulowaną odwrotność K utworzony dla macierzy jądra poprzez odrzucenie wszystkich wartości własnych mniejszych niż ten próg. Zatem funkcję filtru dla TSVD można zdefiniować jako
Można wykazać, że TSVD jest równoznaczne z (bez nadzoru) projekcją danych przy użyciu (jądra) analizy głównych składowych (PCA) i że jest również równoznaczne z minimalizacją ryzyka empirycznego na przewidywanych danych (bez regularyzacji). Należy pamiętać, że liczba komponentów zachowanych dla projekcji jest tutaj jedynym wolnym parametrem.