Regularyzacja macierzy
W dziedzinie teorii statystycznego uczenia się , regularyzacja macierzy uogólnia pojęcia regularyzacji wektorowej na przypadki, w których obiektem do nauczenia jest macierz. Celem regularyzacji jest wymuszenie warunków, na przykład rzadkości lub gładkości, które mogą generować stabilne funkcje predykcyjne. Na przykład w bardziej powszechnym schemacie wektorowym regularyzacja Tichonowa optymalizuje ponad
znaleźć wektor jest stabilnym rozwiązaniem problemu regresji. Gdy system jest opisany macierzą, a nie wektorem, problem ten można zapisać jako
gdzie norma wektorowa wymuszająca karę regularyzacyjną na została rozszerzona na normę macierzową na .
Regularyzacja macierzy ma zastosowanie w uzupełnianiu macierzy , regresji wielowymiarowej i uczeniu się wielozadaniowym . Idee wyboru cech i grup można również rozszerzyć na macierze, które można uogólnić na nieparametryczny przypadek uczenia się wielu jąder .
Podstawowa definicja
Rozważ macierz, której można się nauczyć z zestawu przykładów, , gdzie przechodzi od n przechodzi od do . Niech każda macierz wejściowa będzie niech będzie . model wyjścia można przedstawić
gdzie iloczyn wewnętrzny jest iloczynem wewnętrznym Frobeniusa . Dla różnych zastosowań macierze będą miały różne formy, ale dla każdego z nich problem optymalizacji do wywnioskowania można zapisać jako
gdzie błąd i karą Funkcja jest zwykle wybierana jako wypukła i często jest wybierana w celu wymuszenia rzadkości (przy użyciu -norm) i / lub gładkości (przy użyciu { -normy). Wreszcie, przestrzeni macierzy z iloczynem wewnętrznym Frobeniusa .
Zastosowania ogólne
Uzupełnienie matrycy
W problemie uzupełniania macierzy macierz przyjmuje postać
gdzie i są podstawą kanoniczną w i . W tym przypadku rolą iloczynu wewnętrznego Frobeniusa jest wybranie poszczególnych elementów macierzy W . Zatem wyjście wpisów z
Problem rekonstrukcji wpisów jest możliwy tylko przy pewnych ograniczeniach na macierzy, a ograniczenia te można wymusić za pomocą funkcji regularyzacji. Na przykład można założyć, że formę normy nuklearnej.
gdzie , gdzie 1 min , są wartościami osobliwymi .
Regresja wielowymiarowa
Modele stosowane w regresji wielowymiarowej są parametryzowane przez macierz współczynników. W powyższym produkcie wewnętrznym Frobeniusa każda macierz jest
tak, że wynik iloczynu wewnętrznego jest iloczynem skalarnym jednego wiersza danych wejściowych z jedną kolumną macierzy współczynników. Znana forma takich modeli to
Wiele norm wektorowych stosowanych w regresji z pojedynczą zmienną można rozszerzyć na przypadek wielowymiarowy. Jednym z przykładów jest kwadratowa norma Frobeniusa, którą można postrzegać jako -normę działającą albo po wejściu, albo na wartościach osobliwych macierzy:
W przypadku wielowymiarowym efekt uregulowania normą Frobeniusa jest taki sam jak w przypadku wektora; bardzo złożone modele będą miały większe normy, a zatem będą bardziej karane.
Uczenie się wielozadaniowe
Konfiguracja uczenia się wielozadaniowego jest prawie taka sama jak konfiguracja regresji wielowymiarowej. Podstawowa różnica polega na tym, że zmienne wejściowe są również indeksowane według zadania (kolumny ). Reprezentacja z iloczynem wewnętrznym Frobeniusa jest wtedy
Rola regularyzacji macierzy w tym ustawieniu może być taka sama, jak w regresji wielowymiarowej, ale normy macierzowe mogą być również wykorzystywane do łączenia problemów z uczeniem się między zadaniami. W szczególności zwróć uwagę na problem optymalizacji
rozwiązania odpowiadające każdej kolumnie . Oznacza to, że to samo rozwiązanie można znaleźć, rozwiązując wspólny problem lub rozwiązując izolowany problem regresji dla każdej kolumny. Problemy można połączyć, dodając dodatkową karę regularyzacyjną za kowariancję rozwiązań
gdzie relacje między zadaniami \ displaystyle . Kiedy wiadomo, że związek między zadaniami leży na wykresie, macierzy Laplace'a wykresu.
Regularyzacja widmowa
Regularyzacja przez filtrowanie widmowe została wykorzystana do znalezienia stabilnych rozwiązań problemów, takich jak te omówione powyżej, poprzez zajęcie się źle ustawionymi inwersjami macierzy (patrz na przykład Funkcja filtra dla regularyzacji Tichonowa ). W wielu przypadkach funkcja regularyzacji działa na wejście (lub jądro), aby zapewnić ograniczoną odwrotność poprzez eliminację małych wartości osobliwych, ale przydatne może być również posiadanie norm widmowych, które działają na macierz, której należy się nauczyć.
Istnieje wiele norm macierzowych, które działają na wartości osobliwe macierzy. Często używane przykłady obejmują p-normy Schattena , z p = 1 lub 2. Na przykład regularyzacja macierzy z normą Schattena 1, zwaną również normą jądrową, może być wykorzystana do wymuszenia rzadkości w widmie macierzy. Zostało to użyte w kontekście uzupełniania macierzy, gdy uważa się, że dana macierz ma ograniczoną rangę. W tym przypadku problem optymalizacyjny staje się:
- z zastrzeżeniem
Spektralna regularyzacja jest również używana do wymuszenia zredukowanej macierzy współczynników rang w regresji wielowymiarowej. W tym ustawieniu zmniejszoną macierz współczynników rang można znaleźć, zachowując tylko górne aby zachować dowolny zredukowany zestaw wartości osobliwych i wektorów.
Strukturalna rzadkość
Optymalizacja rzadka stała się przedmiotem zainteresowania wielu badaczy jako sposób na znalezienie rozwiązań zależnych od niewielkiej liczby zmiennych (patrz np. metoda Lasso ). W zasadzie rzadkość przy wejściu można wymusić, nakładając karę na -normę matrycy pod względem wejścia, ale norma nie jest wypukły. praktyce można to zaimplementować przez wypukłą relaksację . Podczas gdy regularyzacja wejściowa z -norm znajdzie rozwiązania z niewielką liczbą niezerowych elementów, zastosowanie grup zmiennych może wymusić strukturę w rzadkości rozwiązań.
Najprostszy przykład uporządkowanej rzadkości wykorzystuje z i }
Na przykład jest używana w uczeniu się wielozadaniowym do grupowania funkcji w zadaniach, tak że można wymusić wszystkie elementy w do zera jako grupa. Efekt grupowania uzyskuje się, przyjmując -normę każdego rzędu, a następnie przyjmując, że całkowita kara jest sumą tych norm Ta regularyzacja skutkuje wierszami, które będą miały tendencję do samych zer lub gęstych. Ten sam typ regularyzacji może być użyty do wymuszenia rzadkości w kolumnach, biorąc -normy każdej kolumny.
Bardziej ogólnie, normę można zastosować do dowolnych grup zmiennych:
gdzie indeks grupy zmiennych wskazuje liczność grupy .
Algorytmy rozwiązywania tych problemów z rzadkością grup rozszerzają bardziej znane metody Lasso i grupowe Lasso, umożliwiając na przykład nakładanie się grup i zostały zaimplementowane poprzez metody dopasowywania : i proksymalnego gradientu . Zapisując proksymalny gradient w odniesieniu do danego współczynnika, można zauważyć, że norma ta wymusza miękki próg grupowy w sol ja { \ displaystyle
gdzie funkcją wskaźnika dla norm grupowych .
Tak więc, stosując albo w wierszach, kolumnach, albo w dowolnych blokach Na przykład wymuszając normy grupowe na blokach w regresji wielowymiarowej lub wielozadaniowej, można znaleźć grupy zmiennych wejściowych i wyjściowych, tak aby zdefiniowane podzbiory zmiennych wyjściowych (kolumny w macierzy) były zależne od Y {\ displaystyle na tym samym rzadkim zestawie zmiennych wejściowych.
Wybór wielu jąder
Idee ustrukturyzowanej rzadkości i wyboru funkcji można rozszerzyć na nieparametryczny przypadek uczenia się wielu jąder . Może to być przydatne, gdy istnieje wiele typów danych wejściowych (na przykład kolor i tekstura) z różnymi odpowiednimi jądrami dla każdego lub gdy odpowiednie jądro jest nieznane. Jeśli na przykład istnieją dwa jądra z mapami cech B które leżą w odpowiednich odtwarzających jądrach przestrzeniach Hilberta następnie większa przestrzeń, może być tworzony jako suma dwóch spacji:
zakładając liniową niezależność w i . W tym przypadku -normą jest znowu suma norm:
Zatem wybierając macierzową funkcję regularyzacji jako tego typu normę, można znaleźć rozwiązanie, które jest rzadkie pod względem używanych jąder, ale gęste pod względem współczynnika każdego użytego jądra. Uczenie się wielu jąder może być również wykorzystywane jako forma nieliniowej selekcji zmiennych lub jako technika agregacji modeli (np. poprzez sumę kwadratów norm i rozluźnienie ograniczeń rzadkości). Na przykład każde jądro można uznać za jądro Gaussa o innej szerokości.