Przykładowa złożoność
Część serii poświęconej |
uczeniu maszynowemu i eksploracji danych |
---|
Złożoność próbki algorytmu uczenia maszynowego reprezentuje liczbę próbek szkoleniowych potrzebnych do pomyślnego nauczenia się funkcji docelowej.
Mówiąc dokładniej, złożoność próbki to liczba próbek uczących, które musimy dostarczyć algorytmowi, aby funkcja zwrócona przez algorytm mieściła się w granicach dowolnie małego błędu najlepszej możliwej funkcji, z prawdopodobieństwem dowolnie bliskim 1.
Istnieją dwa warianty złożoności próbki:
- Słaby wariant naprawia określony rozkład wejścia-wyjścia;
- Wariant silny przyjmuje złożoność próbki w najgorszym przypadku dla wszystkich rozkładów wejścia-wyjścia.
twierdzenie o braku wolnego obiadu dowodzi, że generalnie złożoność próby silnej jest nieskończona, tj. że nie ma algorytmu, który mógłby nauczyć się globalnie optymalnej funkcji celu przy użyciu skończonej liczby próbek uczących.
Jeśli jednak interesuje nas tylko określona klasa funkcji docelowych (np. tylko funkcje liniowe), to złożoność próbki jest skończona i zależy liniowo od wymiaru VC klasy funkcji docelowych.
Definicja
Niech przestrzenią, którą nazywamy przestrzenią wejściową, i przestrzenią, którą nazywamy przestrzenią wyjściową, i niech oznacza iloczyn . Na przykład przy ustawieniu klasyfikacji binarnej to zazwyczaj skończenie wymiarowa przestrzeń wektorowa, a zbiór .
Napraw hipotezę przestrzeni funkcji . Algorytm uczenia się przez to obliczalna mapa od do . Innymi słowy, jest to algorytm, który pobiera jako dane wejściowe skończoną sekwencję próbek treningowych i wyprowadza funkcję od do . Typowe algorytmy uczenia obejmują empiryczną minimalizację ryzyka , bez lub z regularyzacją Tichonowa .
Napraw funkcję straty strata kwadratowa , gdzie . danego rozkładu na oczekiwane ryzyko hipotezy (funkcji) na jest
mamy gdzie algorytmem i wektorów które wszystkie są rysowane niezależnie od . Zdefiniuj optymalne ryzyko
Innymi słowy, złożoność próbki algorytmu: biorąc pod uwagę pożądaną i pewności pobrać próbki punktów danych, aby zagwarantować, że ryzyko funkcji wyjściowej mieści się w granicach najlepszego z możliwych, z prawdopodobieństwem co najmniej .
Przy prawdopodobnie w przybliżeniu poprawnym (PAC) uczeniu się , należy się zastanowić, czy złożoność próbki jest wielomianem , to znaczy, czy jest ograniczona przez wielomian w i . Jeśli wielomianem dla jakiegoś algorytmu uczenia się, wtedy mówi się, że przestrzeń hipotezy możliwa do nauczenia się przez PAC . Zauważ, że jest to silniejsze pojęcie niż umiejętność uczenia się.
Nieograniczona przestrzeń hipotez: nieskończona złożoność próbki
Można zapytać, czy istnieje algorytm uczący się, dzięki któremu złożoność próbki jest skończona w silnym sensie, to znaczy istnieje ograniczenie liczby potrzebnych próbek, aby algorytm mógł nauczyć się dowolnego rozkładu w przestrzeni wejścia-wyjścia z określony błąd docelowy. Bardziej formalnie, pyta się, istnieje algorytm uczenia się, że dla wszystkich dodatnia liczba całkowita takie, że dla wszystkich mamy
Tak więc, aby sformułować stwierdzenia dotyczące szybkości zbieżności ilości
- ograniczyć przestrzeń rozkładów prawdopodobieństwa , np. poprzez podejście parametryczne lub
- ograniczyć przestrzeń hipotez jak w podejściach bez dystrybucji
Ograniczona przestrzeń hipotez: skończona złożoność próbki
takich jak wymiar VC i złożoność Rademachera , które kontrolują złożoność przestrzeni . Mniejsza przestrzeń hipotezy wprowadza większe obciążenie do procesu wnioskowania, co oznacza, że może być większe niż najlepsze możliwe ryzyko na większej przestrzeni. Jednak poprzez ograniczenie złożoności przestrzeni hipotez algorytm staje się możliwy do tworzenia bardziej jednorodnie spójnych funkcji. Ten kompromis prowadzi do koncepcji regularyzacji .
Jest to twierdzenie z teorii VC , że następujące trzy stwierdzenia są równoważne dla przestrzeni hipotez: :
- można nauczyć się PAC.
- Wymiar VC .
- jest jednolitą klasą Glivenko-Cantelli .
Daje to sposób na udowodnienie, że pewne przestrzenie hipotez są PAC do nauczenia, a co za tym idzie, do nauczenia.
Przykład przestrzeni hipotez możliwej do nauczenia się przez PAC
i niech będzie przestrzenią funkcji afinicznych na , czyli funkcjami postaci dla pewnego . Jest to klasyfikacja liniowa z problemem uczenia się z przesunięciem. Teraz zauważ, że cztery współpłaszczyznowe punkty w kwadracie nie mogą zostać rozbite przez żadną funkcję afiniczną, ponieważ żadna funkcja afiniczna nie może być dodatnia na dwóch przeciwległych wierzchołkach po przekątnej i ujemna na pozostałych dwóch. wymiar , jest Z powyższej charakterystyki klas możliwych do nauczenia się PAC wynika, że można nauczyć się PAC, a co za tym idzie, można się tego nauczyć.
Granice złożoności próbki
Załóżmy, funkcji binarnych do Następnie jest -PAC-możliwy do nauczenia się z próbką wielkości: H {\ Displaystyle {\ mathcal {H}}}
Załóżmy, { . Then, is -PAC-learnable with a sample of size:
Inne ustawienia
Oprócz ustawienia nadzorowanego uczenia się, złożoność próbki jest istotna dla problemów z uczeniem się częściowo nadzorowanym , w tym z aktywnym uczeniem się , gdzie algorytm może poprosić o etykiety dla specjalnie wybranych danych wejściowych w celu zmniejszenia kosztów uzyskania wielu etykiet. Koncepcja złożoności próbki pojawia się również w uczeniu się przez wzmacnianie , uczeniu się online i algorytmach bez nadzoru, np. w uczeniu słownikowym .
Wydajność w robotyce
Duża złożoność próbki oznacza, że do przeprowadzenia wyszukiwania drzewa metodą Monte Carlo potrzebnych jest wiele obliczeń . Jest to równoznaczne z modelowym przeszukiwaniem siłowym w przestrzeni stanów. W przeciwieństwie do tego algorytm o wysokiej wydajności ma niską złożoność próbki. Możliwymi technikami zmniejszania złożoności próbki są uczenie się metryczne i uczenie się oparte na modelu.