Miara złożoności funkcji o wartościach rzeczywistych
W teorii uczenia się obliczeniowego ( uczenie maszynowe i teoria obliczeń ) złożoność Rademachera , nazwana na cześć Hansa Rademachera , mierzy bogactwo klasy funkcji o wartościach rzeczywistych w odniesieniu do rozkładu prawdopodobieństwa .
Definicje
Złożoność Rademachera zbioru
Biorąc pod uwagę zbiór , złożoność Rademachera A jest zdefiniowana w następujący sposób:
gdzie są niezależnymi zmiennymi losowymi losowanymi z rozkładu Rademachera , tj. za i . Niektórzy autorzy przyjmują wartość bezwzględną sumy przed przyjęciem supremum, ale jeśli jest nie ma to znaczenia.
Złożoność Rademachera klasy funkcji
Niech próbką punktów i rozważ klasę funkcji wartościach rzeczywistych Następnie empiryczna złożoność Rademachera , pod definiuje się jako:
Można to również zapisać, korzystając z poprzedniej definicji:
gdzie oznacza złożenie funkcji , tj.
Niech rozkładem . Złożoność Rademachera klasy w odniesieniu do próbki wynosi:
gdzie powyższe oczekiwanie jest uwzględniane w identycznie niezależnie rozłożonej próbce (iid) wygenerowane zgodnie z .
Intuicja
Złożoność Rademachera jest zwykle stosowana w klasie funkcji modeli używanych do klasyfikacji w celu pomiaru ich zdolności do klasyfikowania punktów wylosowanych z przestrzeni prawdopodobieństwa pod dowolnymi etykietami. Gdy klasa funkcji jest wystarczająco bogata, zawiera funkcje, które można odpowiednio dostosować do każdego układu etykiet, symulowanego przez losowe losowanie aby ta ilość w sumie jest zmaksymalizowane.
Przykłady
1. pojedynczy wektor, np. . Następnie:
To samo dotyczy każdej klasy hipotez singletonowych.
2. zawiera , np. . Następnie:
Korzystanie ze złożoności Rademachera
Złożoność Rademachera można wykorzystać do wyznaczenia zależnych od danych górnych granic możliwości uczenia się klas funkcji. Intuicyjnie łatwiej jest nauczyć się klasy funkcyjnej o mniejszej złożoności Rademachera.
Granice reprezentatywności
W uczeniu maszynowym jest zbiór szkoleniowy reprezentujący prawdziwy rozkład niektórych przykładowych . Można to określić ilościowo, korzystając z pojęcia reprezentatywności . Oznacz przez prawdopodobieństwa którego pobierane są próbki. Oznacz przez zbiór hipotez (potencjalne klasyfikatory) i oznacz przez funkcji błędu, tj. dla każdej hipotezy funkcja , odwzorowuje każdą próbkę treningową ( klasyfikatora (uwaga w tym przypadku hipoteza i klasyfikator są używane zamiennie) Na przykład w przypadku, gdy reprezentuje klasyfikator , funkcja błędu jest funkcją straty 0–1, tj. funkcją , jeśli próbkę i 0 w innych przypadkach. Pomijamy indeks i piszemy gdy hipoteza jest Definiować:
-
- oczekiwany błąd jakiejś funkcji błędu rozkładzie ;
-
jakiejś funkcji błędu na .
Reprezentatywność próbki w odniesieniu do i jest jako:
Mniejsza reprezentatywność jest lepsza, ponieważ pozwala uniknąć nadmiernego dopasowania : oznacza to, że prawdziwy błąd klasyfikatora nie jest dużo wyższy niż jego błąd szacowany, zatem wybranie klasyfikatora o niskim oszacowanym błędzie zapewni, że prawdziwy błąd będzie również Niski. Należy jednak zauważyć, że koncepcja reprezentatywności jest względna i dlatego nie można jej porównywać pomiędzy różnymi próbami.
Oczekiwaną reprezentatywność próby można ograniczyć powyżej złożoności Rademachera klasy funkcji:
Granica błędu uogólnienia
Gdy złożoność Rademachera jest mała, możliwe jest poznanie klasy hipotezy H poprzez empiryczną minimalizację ryzyka .
przykład (z binarną funkcją błędu) dla każdej co najmniej :
Granica złożoności Rademachera
Ponieważ mniejsza złożoność Rademachera jest lepsza, przydatne jest określenie górnych granic złożoności Rademachera różnych zestawów funkcji. górnego ograniczenia złożoności .
1. Jeśli wszystkie wektory w , Rad ( ) nie zmienia się za { R} ^ .
Jeśli wszystkie wektory zostaną skalar , Rad ( ) zostanie pomnożony przez .
3. .
4. (Lemat Kakade i Tewari) Jeśli wszystkie wektory w obsługiwane przez funkcję Lipschitza , wówczas Rad ( A ) jest co najwyżej) mnożony przez stałą Lipschitza tej funkcji. W szczególności, jeśli wszystkie wektory w obsługiwane przez mapowanie skrócenia wówczas Rad ( A ) ściśle maleje.
5. Złożoność Rademachera wypukłego równa się Rad ( ).
6. (Lemat Massarta) Złożoność Rademachera skończonego zbioru rośnie logarytmicznie wraz ze wzrostem rozmiaru zbioru. Formalnie niech wektorów i niech średnią wektorów . Następnie:
W szczególności, jeśli jest wektorów binarnych, normą jest co najwyżej więc: ZA {\
Granice związane z wymiarem VC
Niech będzie rodziną , VC wynosi . Wiadomo, że funkcja wzrostu jest ograniczona jako:
- dla wszystkich :
że dla każdego najwyżej elementy . Rodzinę można za Podstawienie tego w lemacie Massarta daje:
Za pomocą bardziej zaawansowanych technik ( granica entropii Dudleya i górna granica Hausslera) można na przykład wykazać, że istnieje stała , że dowolna klasa -funkcje wskaźnikowe z – Chervonenkisa, ograniczona górną granicą przez .
Granice związane z klasami liniowymi
Poniższe granice są związane stałym zestawie w
1. Zdefiniuj iloczynów skalarnych wektorów w wektorami w kuli jednostkowej . Następnie:
2. Zdefiniuj zbiór iloczynów skalarnych wektorów w z wektorami w kuli jednostkowej norma 1. Następnie:
Granice związane z zakrywaniem liczb
złożoność zbioru Rademachera z jego zewnętrzną liczbą pokrycia liczbą kulek o danym , zawiera Wiązanie przypisuje się Dudleyowi.
Załóżmy, jest zbiorem wektorów, których długość (norma) wynosi co najwyżej do . Następnie dla każdej liczby całkowitej :
szczególności, jeśli w d -wymiarowej podprzestrzeni , to: ZA
Podstawienie tego w poprzednim wiązaniu daje następującą granicę złożoności Rademachera:
Złożoność Gaussa
Złożoność Gaussa to podobna złożoność za pomocą zmiennych losowych zamiast , gdzie Gaussa i.id o średniej zerowej i wariancji 1, tj. N . Wiadomo, że złożoność Gaussa i Rademachera jest równoważna aż do współczynników logarytmicznych.
Równoważność złożoności Rademachera i Gaussa
Biorąc że: Gdzie jest złożonością gaussowską
- Peter L. Bartlett, Shahar Mendelson (2002) Złożoność Rademachera i Gaussa: granice ryzyka i wyniki strukturalne . Journal of Machine Learning Research 3 463–482
- Giorgio Gnecco, Marcello Sanguineti (2008) Granice błędów aproksymacji poprzez złożoność Rademachera . Stosowane nauki matematyczne, tom. 2, 2008, nr. 4, 153–176