Uczenie się wielu jąder

Uczenie się wielu jąder odnosi się do zestawu metod uczenia maszynowego, które wykorzystują predefiniowany zestaw jąder i uczą się optymalnej liniowej lub nieliniowej kombinacji jąder w ramach algorytmu. Powody, dla których warto korzystać z uczenia się wielu jąder, obejmują a) możliwość wyboru optymalnego jądra i parametrów z większego zestawu jąder, zmniejszając stronniczość wynikającą z wyboru jądra, jednocześnie umożliwiając bardziej zautomatyzowane metody uczenia maszynowego oraz b) łączenie danych z różnych źródeł ( np. dźwięk i obrazy z wideo), które mają różne pojęcia podobieństwa i dlatego wymagają różnych jąder. Zamiast tworzyć nowe jądro, można użyć wielu algorytmów jądra, aby połączyć jądra już ustanowione dla każdego źródła danych.

W wielu zastosowaniach zastosowano wiele podejść do uczenia jądra, takich jak rozpoznawanie zdarzeń w wideo, rozpoznawanie obiektów na obrazach i fuzja danych biomedycznych.

Algorytmy

Opracowano wiele algorytmów uczenia jądra dla uczenia nadzorowanego, częściowo nadzorowanego i nienadzorowanego. Większość prac wykonano w przypadku uczenia nadzorowanego z liniowymi kombinacjami jąder, jednak opracowano wiele algorytmów. Podstawową ideą wielu algorytmów uczenia jądra jest dodanie dodatkowego parametru do problemu minimalizacji algorytmu uczenia się. $liniowej$ przykład rozważmy przypadek nadzorowanego uczenia się $kombinacji$ zbioru . Wprowadzamy nowe jądro ${\ Displaystyle K'= \ suma _ {i = 1} ^ {n} \ beta _ {i} K_ {i}}$ , gdzie jest wektorem ${\ Displaystyle \ beta}$ współczynników dla każdego jądra. Ponieważ jądra są addytywne (ze względu na właściwości odtwarzania przestrzeni Hilberta jądra ), ta nowa funkcja jest nadal jądrem. Dla zestawu danych z etykietami problem minimalizacji można zapisać jako ${\$ $X}$

{\ Displaystyle \ min _ {\ beta, c} \ operatorname {E} (Y, K'c) + R (K, c) }

gdzie $jest$ funkcją błędu i $.$ regularyzacji ${\ displaystyle \ operatorname {E}}$ jest zazwyczaj kwadratową funkcją straty ( regularyzacja Tichonowa ) lub funkcją utraty zawiasów (dla algorytmów SVM ), a ${\ displaystyle R}$ jest zwykle ${\ displaystyle \ ell _ { n}}$ norma lub pewna kombinacja norm (np. regularyzacja elastycznej sieci ). Ten problem optymalizacji można następnie rozwiązać za pomocą standardowych metod optymalizacji. Adaptacje istniejących technik, takich jak Sequential Minimal Optimization, zostały również opracowane dla metod opartych na wielu jądrach SVM.

Nadzorowana nauka

W przypadku uczenia nadzorowanego istnieje wiele innych algorytmów, które wykorzystują różne metody uczenia się postaci jądra. Następującą kategoryzację zaproponowali Gonen i Alpaydın (2011)

Podejścia oparte na ustalonych zasadach

Podejścia oparte na ustalonych regułach, takie jak opisany powyżej algorytm kombinacji liniowych, wykorzystują reguły do ustawiania kombinacji jąder. Nie wymagają one parametryzacji i używają reguł, takich jak sumowanie i mnożenie, do łączenia jąder. Ważenie jest wyuczone w algorytmie. Inne przykłady ustalonych reguł obejmują jądra parami, które mają postać

{\ Displaystyle k ((x_ {1i}, x_ {1j}), (x_ {2i}, x_ {2j})} = k (x_ {1i}, x_ { 2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})}

.

Te podejścia oparte na parach zostały wykorzystane do przewidywania interakcji białko-białko.

Podejścia heurystyczne

Algorytmy te wykorzystują funkcję kombinowaną, która jest sparametryzowana. Parametry są ogólnie definiowane dla każdego pojedynczego jądra na podstawie wydajności pojedynczego jądra lub niektórych obliczeń z macierzy jądra. Ich przykłady obejmują jądro z Tenabe et al. (2008). Niech będzie dokładnością uzyskaną tylko przy użyciu tylko i niech będzie $}$ próg mniejszy niż minimum pojedynczego $\ displaystyle \ pi$ ${m}$ dokładności jądra, które możemy zdefiniować

{\ Displaystyle \ beta _ {m} = {\ Frac {\ pi _ {m} - \ delta}} {\ suma _ {h = 1 }^{n}(\pi _{h}-\delta )}}}

Inne podejścia wykorzystują definicję podobieństwa jądra, np

{\ Displaystyle A (K_ {1}, K_ {2}) = {\ Frac { \langle K_{1},K_{2}\rangle }{\sqrt {\langle K_{1},K_{1}\rangle \langle K_{2},K_{2}\rangle }}}}

Korzystając z tej miary, Qui i Lane (2009) zastosowali następującą heurystykę do zdefiniowania

{\ Displaystyle \ beta _ {m} = {\ Frac {A (K_ {m}, YY ^ { T})}{\sum _{h=1}^{n}A(K_{h},YY^{T})}}}

Podejścia optymalizacyjne

Podejścia te rozwiązują problem optymalizacji w celu określenia parametrów funkcji kombinacji jądra. Dokonano tego za pomocą miar podobieństwa i metod minimalizacji ryzyka strukturalnego. Dla miar podobieństwa, takich jak zdefiniowana powyżej, problem można sformułować w następujący sposób:

{\ Displaystyle \ max _ {\ beta, \ nazwa operatora {tr} (K'_ {tra}) = 1, K' \ geq 0} A (K'_ {tra}, YY ^ {T}).}

gdzie ${\ Displaystyle K'_ {tra}}$ jest jądrem zbioru treningowego.

Zastosowane podejścia do minimalizacji ryzyka strukturalnego obejmują podejścia liniowe, takie jak zastosowane przez Lanckrieta i in. (2002). Możemy zdefiniować niewiarygodność jądra jako wartość funkcji celu po $kanonicznego$ Możemy wtedy rozwiązać następujący problem minimalizacji:

{\ Displaystyle \ min _ {\ nazwa operatora {tr} (K'_ {tra}) = c} \ omega (K'_ { tra})}

gdzie jest $stałą$ . Istnieje wiele innych odmian tego samego pomysłu, z różnymi metodami udoskonalania i rozwiązywania problemu, np. z nieujemnymi wagami dla poszczególnych jąder i przy użyciu nieliniowych kombinacji jąder.

Podejścia bayesowskie

Podejścia bayesowskie nakładają priorytety na parametry jądra i uczą się wartości parametrów na podstawie priorytetów i algorytmu podstawowego. Na przykład funkcję decyzyjną można zapisać jako

{\ Displaystyle f (x) = \ suma _ {i = 0} ^ {n} \ alfa _{i}\suma _{m=1}^{p}\eta _{m}K_{m}(x_{i}^{m},x^{m})}

${\ displaystyle \ eta}$ można modelować za pomocą wcześniejszego Dirichleta i można modelować za pomocą zerowej średniej Gaussa i odwrotnej wariancji gamma $.$ Model ten jest następnie optymalizowany przy użyciu niestandardowego wielomianowego podejścia probitowego z próbnikiem Gibbsa .

Metody te były z powodzeniem stosowane w zastosowaniach takich jak rozpoznawanie fałd białkowych i problemy z homologią białek

Wzmacniające podejścia

Podejścia wzmacniające dodają nowe jądra iteracyjnie, aż zostaną osiągnięte pewne kryteria zatrzymania, które są funkcją wydajności. Przykładem tego jest model MARK opracowany przez Bennetta i in. (2002)

{\ Displaystyle f (x) = \ suma _ {i = 1} ^ {N} \sum _{m=1}^{P}\alpha _{i}^{m}K_{m}(x_{i}^{m},x^{m})+b}

Parametry $i$ są uczone przez $opadanie$ . W ten sposób każda iteracja algorytmu zejścia identyfikuje najlepszą kolumnę jądra do wyboru w każdej konkretnej iteracji i dodaje ją do połączonego jądra. Model jest następnie ponownie uruchamiany w celu wygenerowania optymalnych wag $b$ { $b}$ .

Uczenie się częściowo nadzorowane

uczenia się częściowo nadzorowanego do uczenia się wielu jąder są podobne do innych rozszerzeń podejść do uczenia nadzorowanego. Opracowano procedurę indukcyjną, która wykorzystuje empiryczną utratę logarytmu wiarygodności i grupową regularyzację LASSO z warunkowym konsensusem oczekiwań na nieoznakowanych danych do kategoryzacji obrazu. Problem możemy zdefiniować w następujący sposób. Niech ${\ Displaystyle L = {(x_ {i}, y_ {i}}}}$ będą oznaczonymi danymi i niech ${\ Displaystyle U = {x_ {i} }}$ będzie zbiorem danych nieoznakowanych. Następnie możemy zapisać funkcję decyzyjną w następujący sposób.

{\ Displaystyle f (x) = \ alfa _ {0} + \ suma _ {i = 1} ^ {| L |} \ alfa _ {i} K_ {i} (x)}

Problem można zapisać jako

{\ Displaystyle \ min _ {f} L (f) + \ lambda R (f) + \ gamma \ Theta (f)}

gdzie jest funkcją straty (w tym $przypadku$ ważona ujemna logarytmiczna wiarygodność), ${\ displaystyle \ Theta}$ $parametrem$ ( w tym przypadku Grupa LASSO ) i jest kara konsensusu warunkowych oczekiwań (CEC) w przypadku danych nieoznakowanych. Kara CEC jest zdefiniowana w następujący sposób. Niech marginalna gęstość jądra dla wszystkich danych będzie

{\ Displaystyle g_ {m} ^ {\ pi} (x) = \ langle \ phi _ {m} ^ {\ pi}, \ psi _{m}(x)\szereg }

gdzie ${\ Displaystyle \ psi _ {m} (x) = [K_ {m} (x_ { 1},x),\ldots ,K_{m}(x_{L},x)]^{T}}$ (jądrowa odległość między danymi oznaczonymi a wszystkimi danymi oznaczonymi i nieoznakowanymi) oraz ${\ styl wyświetlania \phi _{m}^{\pi}}$ jest nieujemnym wektorem losowym z normą 2 równą 1. Wartość $.$ liczba rzutów każdego jądra ${\ Displaystyle q_ {m} ^ {pi} (y | g_ {m} ^ {$ ja i oczekiwanie modelu ${\ Displaystyle p_ {m} ^ {\ pi} (f (x) | g_ {m} ^ {\ pi} (x))}$ . Następnie definiujemy

{\ Displaystyle \ Theta = {\ Frac {1} {\ Pi}} \ suma _ {\ pi = 1} ^ {\ Pi} \ suma _ {m = 1} ^ {M} D (q_ {m} ^ {pi}(y|g_{m}^{\pi }(x))||p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))) }

gdzie ${\ Displaystyle D (Q | | P) = \ suma _ {i} Q (i) \ ln {\ frac {Q(i)}{P(i)}}}$ to dywergencja Kullbacka-Leiblera . Połączony problem minimalizacji jest optymalizowany przy użyciu zmodyfikowanego algorytmu opadania gradientu blokowego. Aby uzyskać więcej informacji, patrz Wang i in.

Uczenie się bez nadzoru

Nienadzorowane algorytmy uczenia się wielu jąder zostały również zaproponowane przez Zhuanga i in. Problem jest zdefiniowany w następujący sposób. Niech ${\ displaystyle U = {x_ {i}}}$ będzie zbiorem nieoznakowanych danych. $_$ jądra _ W tym problemie dane muszą być „pogrupowane” w grupy na podstawie odległości jądra. Niech ${\ displaystyle B_ {i}}$ być grupą lub klastrem, którego członkiem jest ${\ displaystyle x_ {i}} .$ Definiujemy funkcję straty jako ${\ Displaystyle \ suma _ {i = 1} ^ {n} \ lewo \Vert x_{i}-\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})x_{j}\right\Vert ^{2}}$ . Ponadto minimalizujemy zniekształcenie, minimalizując ${\ Displaystyle \ suma _ {i = 1} ^ {n} \sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}}$ . Na koniec dodajemy termin regularyzacji, aby uniknąć przeuczenia. Łącząc te terminy, możemy zapisać problem minimalizacji w następujący sposób.

{\ Displaystyle \ min _ {\ beta, B} \ suma _ {i = 1} ^ {n} \ lewo \ Vert x_ {i} - \ suma _ {x_ {j} \ w B_ {i}} K ( x_{i},x_{j})x_{j}\right\Vert ^{2}+\gamma _{1}\suma _{i=1}^{n}\suma _{x_{j}\ w B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}+\gamma _{2}\sum _{ i}|B_{i}|}

Gdzie . Jedno sformułowanie tego jest zdefiniowane w następujący sposób. Niech ${n \ razy n}}$ ${\ displaystyle x_ {i}$ będzie macierzą taką, że oznacza, że ${\ displaystyle D_ {ij} = 1}$ $i$ są . Wtedy ${\ Displaystyle B_ {i} = {x_ {j}: D_ {ij} = 1}}$ . Pamiętaj, że tych grup również trzeba się nauczyć. Zhuang i in. $za pomocą$ $naprzemiennej$ metody minimalizacji dla i . Aby uzyskać więcej informacji, patrz Zhuang i in.

Biblioteki

Dostępne biblioteki MKL obejmują

SPG-GMKL : Skalowalna biblioteka C++ MKL SVM, która może obsłużyć milion jąder.
GMKL : $Uogólniony kod uczenia$ wielu jąder w $nadzorowanego$ , czy regularyzacja uczenia
(Inny) GMKL : Inny kod MATLAB MKL, który może również przeprowadzać elastyczną regularyzację sieci
SMO-MKL : kod źródłowy C++ dla algorytmu Sequential Minimal Optimization MKL. Czy ${\ displaystyle p}$ -n orm regularyzacja.
SimpleMKL : Kod MATLAB oparty na algorytmie SimpleMKL dla MKL SVM.
MKLPy : Framework Pythona dla MKL i maszyn z jądrem zgodny z scikit z różnymi algorytmami, np. EasyMKL i innymi.