Rozbity zestaw

Pojęcie rozbitych zbiorów odgrywa ważną rolę w teorii Vapnika-Chervonenkisa , znanej również jako teoria VC. Teoria wstrząsów i teoria VC są wykorzystywane w badaniu procesów empirycznych , a także w statystycznej teorii obliczeniowego uczenia się .

Definicja

Załóżmy, że A jest zbiorem , a C klasą zbiorów. Klasa C rozbija zbiór A , jeśli dla każdego podzbioru a zbioru A istnieje element c zbioru C taki, że

Równoważnie, C rozbija A , gdy ich przecięcie jest równe zbiorowi mocy A : P ( A ) = { c A | do do }.

Używamy litery C , aby odnieść się do „klasy” lub „zbioru” zestawów, jak w klasie Vapnik-Chervonenkis (klasa VC). Często zakłada się, że zbiór A jest skończony , ponieważ w procesach empirycznych interesuje nas rozbijanie skończonych zbiorów punktów danych.

Przykład

Pokażemy, że klasa wszystkich dysków na płaszczyźnie (przestrzeń dwuwymiarowa) nie rozbija każdego zbioru czterech punktów na okręgu jednostkowym , ale klasa wszystkich zbiorów wypukłych na płaszczyźnie rozbija każdy skończony zbiór punktów na koło jednostkowe .

Niech A będzie zbiorem czterech punktów na okręgu jednostkowym, a C klasą wszystkich krążków.

Zbiór A czterech określonych punktów na okręgu jednostkowym (okrąg jednostkowy jest zaznaczony na fioletowo).

Aby sprawdzić, gdzie C rozbija A , próbujemy narysować dysk wokół każdego podzbioru punktów w A . Najpierw rysujemy dysk wokół podzbiorów każdego izolowanego punktu. Następnie próbujemy narysować krążek wokół każdego podzbioru par punktów. Okazuje się, że jest to wykonalne dla sąsiednich punktów, ale niemożliwe dla punktów po przeciwnych stronach okręgu. Jak zwizualizowano poniżej:

C istnieje pewien podzbiór, którego nie może wydzielić żaden krążek , wnioskujemy, że A nie jest rozbite przez C. Przy odrobinie zastanowienia możemy udowodnić, że żaden zbiór czterech punktów nie jest rozbity przez to C .

Jeśli jednak ponownie zdefiniujemy C jako klasę wszystkich dysków eliptycznych , okaże się, że nadal możemy wyizolować wszystkie podzbiory z góry, a także punkty, które wcześniej były problematyczne. Tak więc ten specyficzny zestaw 4 punktów jest rozbity przez klasę dysków eliptycznych. Zwizualizowane poniżej:

Przy odrobinie zastanowienia moglibyśmy uogólnić, że każdy zbiór skończonych punktów na okręgu jednostkowym może zostać rozbity przez klasę wszystkich zbiorów wypukłych (zobacz łączenie kropek).

Współczynnik rozbicia

Aby określić ilościowo bogactwo zbioru C zbiorów, używamy koncepcji współczynników niszczących (znanych również jako funkcja wzrostu ). Dla zbioru C zbiorów będącego dowolną , często przestrzenią definiujemy ty wstrząsu C jako

gdzie oznacza liczność zbioru i to dowolny zbiór n punktów.

to największa liczba podzbiorów dowolnego zbioru A z n punktów, które można utworzyć przez przecięcie A ze zbiorami w zbiorze C .

Oto kilka faktów na temat :

  1. dla wszystkich n , ponieważ dla dowolnego .
  2. Jeśli , oznacza to, że istnieje zbiór liczności n , który może zostać rozbity przez do .
  3. Jeśli , do dla wszystkich .

Trzecia właściwość oznacza, że ​​jeśli C nie może rozbić żadnego zbioru liczności N , to nie może rozbić zbiorów większych liczności.

Klasa Vapnik-Chervonenkis

Wymiar VC klasy C jest zdefiniowany jako

lub alternatywnie jako

Zauważ, że

Jeśli dla dowolnego istnieje liczności , może zostać C , to wszystkich i wymiar tej klasy C jest nieskończony.

Klasa o skończonym wymiarze VC nazywana jest klasą Vapnika-Chervonenkisa lub klasą VC . Klasa C jest jednolicie Glivenko – Cantelli wtedy i tylko wtedy, gdy jest klasą VC.

Zobacz też

  • Wencour, RS; Dudley, RM (1981), „Niektóre specjalne klasy Vapnika – Chervonenkisa”, Discrete Mathematics , 33 (3): 313–318, doi : 10.1016/0012-365X (81) 90274-0 .
  • Steele, JM (1975), Entropia kombinatoryczna i jednolite prawa graniczne , Ph.D. praca magisterska, Uniwersytet Stanforda, Wydział Matematyki
  •   Steele, JM (1978), „Rozbieżności empiryczne i procesy subaddytywne”, Annals of Probability , 6 (1): 118–227, doi : 10.1214/aop/1176995615 , JSTOR 2242865 .

Linki zewnętrzne