Hiperparametr (uczenie maszynowe)

W uczeniu maszynowym hiperparametr to parametr , którego wartość jest używana do sterowania procesem uczenia. Natomiast wartości innych parametrów (zwykle wagi węzłów) są uzyskiwane poprzez uczenie.

Hiperparametry można sklasyfikować jako hiperparametry modelu, których nie można wywnioskować podczas dopasowywania maszyny do zbioru uczącego , ponieważ odnoszą się do zadania wyboru modelu , lub hiperparametry algorytmu, które w zasadzie nie mają wpływu na wydajność modelu, ale wpływają na szybkość i jakość procesu uczenia się. Przykładem hiperparametru modelu jest topologia i rozmiar sieci neuronowej. Przykładami hiperparametrów algorytmu są szybkość uczenia się i wielkość wsadu, a także rozmiar mini-wsadu. Rozmiar partii może odnosić się do pełnej próbki danych, gdzie rozmiar mini-grupy byłby mniejszym zestawem próbek.

Różne algorytmy uczenia modeli wymagają różnych hiperparametrów, niektóre proste algorytmy (takie jak zwykła regresja metodą najmniejszych kwadratów) nie wymagają żadnych. Biorąc pod uwagę te hiperparametry, algorytm uczący uczy się parametrów z danych. Na przykład LASSO to algorytm, który dodaje hiperparametr regularyzacji do zwykłej regresji metodą najmniejszych kwadratów, który należy ustawić przed oszacowaniem parametrów za pomocą algorytmu szkoleniowego.

Rozważania

Czas potrzebny do nauczenia i przetestowania modelu może zależeć od wyboru jego hiperparametrów. Hiperparametr jest zwykle typu ciągłego lub całkowitego, co prowadzi do problemów z optymalizacją typu mieszanego. Istnienie niektórych hiperparametrów jest uwarunkowane wartością innych, np. wielkość każdej warstwy ukrytej w sieci neuronowej może być uzależniona od liczby warstw.

Trudność w nauce parametrów

Zwykle, choć nie zawsze, hiperparametrów nie można nauczyć się za pomocą dobrze znanych metod opartych na gradiencie (takich jak gradient zejścia, LBFGS) - które są powszechnie stosowane do uczenia się parametrów. Te hiperparametry to te parametry opisujące reprezentację modelu, których nie można nauczyć się zwykłymi metodami optymalizacji, ale mimo to wpływają na funkcję straty. Przykładem może być hiperparametr tolerancji dla błędów w maszynach wektorów nośnych.

Niewytrenowane parametry

Czasami hiperparametrów nie można nauczyć się z danych treningowych, ponieważ agresywnie zwiększają one pojemność modelu i mogą sprowadzić funkcję utraty do niepożądanego minimum (nadmierne dopasowanie i wychwytywanie szumu w danych), w przeciwieństwie do prawidłowego mapowania bogactwa struktura w danych. Na przykład, jeśli traktujemy stopień dopasowania równania wielomianowego do modelu regresji jako parametr możliwy do nauczenia , stopień będzie wzrastał, aż model będzie idealnie pasował do danych, dając niski błąd uczenia, ale słabą wydajność uogólnienia.

Przestrajalność

Większość różnic wydajności można przypisać zaledwie kilku hiperparametrom. Przestrajalność algorytmu, hiperparametru lub współdziałających hiperparametrów jest miarą tego, ile wydajności można uzyskać przez dostrojenie. W przypadku LSTM , podczas gdy szybkość uczenia się , po której następuje rozmiar sieci, są jego najważniejszymi hiperparametrami, przetwarzanie wsadowe i pęd nie mają znaczącego wpływu na jego wydajność.

Chociaż niektóre badania opowiadały się za stosowaniem mini-partii w tysiącach, inne prace wykazały najlepszą wydajność przy wielkości mini-partii od 2 do 32.

Krzepkość

Nieodłączna stochastyczność w uczeniu się bezpośrednio implikuje, że empiryczna wydajność hiperparametru niekoniecznie jest jego prawdziwą wydajnością. Metody, które nie są odporne na proste zmiany hiperparametrów, losowych nasion , a nawet różne implementacje tego samego algorytmu, nie mogą być zintegrowane z systemami kontroli o znaczeniu krytycznym bez znacznego uproszczenia i wzmocnienia.

uczenia się przez wzmacnianie wymagają pomiaru ich wydajności na dużej liczbie losowych nasion, a także pomiaru ich wrażliwości na wybór hiperparametrów. Ich ocena przy niewielkiej liczbie losowych nasion nie oddaje odpowiednio wydajności ze względu na dużą wariancję. Niektóre metody uczenia się przez wzmacnianie, np. DDPG (Deep Deterministic Policy Gradient), są bardziej wrażliwe na wybory hiperparametrów niż inne.

Optymalizacja

Optymalizacja hiperparametrów znajduje krotkę hiperparametrów, która daje optymalny model, który minimalizuje predefiniowaną funkcję strat na danych testowych. Funkcja celu przyjmuje krotkę hiperparametrów i zwraca powiązaną stratę.

Powtarzalność

Oprócz dostrajania hiperparametrów, uczenie maszynowe obejmuje przechowywanie i organizowanie parametrów i wyników oraz upewnianie się, że są one powtarzalne. W przypadku braku solidnej infrastruktury do tego celu kod badawczy często ewoluuje szybko i narusza podstawowe aspekty, takie jak księgowość i odtwarzalność . Platformy współpracy online do uczenia maszynowego idą dalej, umożliwiając naukowcom automatyczne udostępnianie, organizowanie i omawianie eksperymentów, danych i algorytmów. Odtwarzalność może być szczególnie trudna w przypadku głębokiego uczenia się .

Zobacz też