Krzywa uczenia się (uczenie maszynowe)
Część serii poświęconej |
uczeniu maszynowemu i eksploracji danych |
---|
W uczeniu maszynowym krzywa uczenia się (lub krzywa szkolenia ) wykreśla optymalną wartość funkcji utraty modelu dla zestawu treningowego w stosunku do tej funkcji straty ocenionej podczas walidacji zestaw danych o tych samych parametrach, które dały optymalną funkcję. Jest to narzędzie, które pozwala dowiedzieć się, ile model maszyny zyskuje na dodaniu większej liczby danych treningowych i czy estymator jest bardziej obciążony błędem wariancji, czy błędem obciążenia. Jeśli zarówno wynik walidacji, jak i wynik szkolenia zbiegają się do wartości, która jest zbyt niska wraz ze wzrostem rozmiaru zbioru uczącego, nie będzie wiele korzyści z większej ilości danych uczących.
Krzywa uczenia maszynowego jest przydatna do wielu celów, w tym do porównywania różnych algorytmów, wybierania parametrów modelu podczas projektowania, dostosowywania optymalizacji w celu poprawy konwergencji oraz określania ilości danych używanych do uczenia.
W dziedzinie uczenia maszynowego istnieją dwie implikacje krzywych uczenia się różniących się osią x krzywych, z doświadczeniem modelu przedstawionym na wykresie jako liczba przykładów szkoleniowych użytych do uczenia się lub liczba iteracji użytych w szkoleniu modelu.
Definicja formalna
Jeden model uczenia maszynowego tworzy funkcję , f (x) , która przy pewnych informacjach x , przewiduje pewną zmienną y na podstawie danych treningowych i . się to od optymalizacji matematycznej , ponieważ powinno dobrze przewidywać poza .
Często ograniczamy możliwe funkcje do sparametryzowanej rodziny funkcji, tak że nasza funkcja jest bardziej uogólniona lub funkcja ma pewne właściwości, takie jak te, które ułatwiają znalezienie dobrego dlatego, że mamy jakiś a priori powód, by sądzić, że te właściwości są prawdziwe.
Biorąc pod uwagę, że nie jest możliwe stworzenie funkcji, która idealnie pasuje do danych, konieczne jest utworzenie funkcji straty , aby zmierzyć, jak dobra jest nasza prognoza. Następnie definiujemy proces optymalizacji, który znajduje minimalizację dalej .
Krzywa treningowa dla ilości danych
Następnie, jeśli nasze dane treningowe to a nasze dane weryfikacyjne to krzywa uczenia się to wykres dwóch krzywych
gdzie
Krzywa treningowa dla liczby iteracji
Wiele procesów optymalizacji ma charakter iteracyjny, powtarzając ten sam krok, aż proces osiągnie optymalną wartość. Jednym z takich algorytmów jest opadanie gradientu . Jeśli zdefiniujesz jako przybliżenie optymalnego po krokach, krzywa uczenia się jest wykresem
Zobacz też
- Przetrenowanie
- Kompromis między odchyleniem a wariancją
- Wybór modelu
- Walidacja krzyżowa (statystyki)
- Ważność (statystyki)
- Weryfikacja i walidacja