Uczenie się od zera

Zero-shot learning ( ZSL ) to konfiguracja problemu w uczeniu maszynowym , w której w czasie testu uczeń obserwuje próbki z zajęć, które nie były obserwowane podczas szkolenia i musi przewidzieć klasę, do której należą. Metody zero-shot generalnie działają poprzez kojarzenie obserwowanych i nieobserwowanych klas za pomocą jakiejś formy informacji pomocniczych, które kodują obserwowalne właściwości wyróżniające obiekty. Na przykład, biorąc pod uwagę zestaw obrazów zwierząt, które mają zostać sklasyfikowane, wraz z pomocniczymi opisami tekstowymi tego, jak wyglądają zwierzęta, model sztucznej inteligencji, który został wyszkolony w rozpoznawaniu koni, ale nigdy nie otrzymał zebry, może nadal rozpoznawać zebrę kiedy wie też, że zebry wyglądają jak pręgowane konie. Problem ten jest szeroko badany w widzeniu komputerowym , przetwarzaniu języka naturalnego i percepcji maszynowej .

Tło i historia

Pierwszy artykuł na temat uczenia się bez strzału w przetwarzaniu języka naturalnego pojawił się w 2008 roku na konferencji AAAI'08 , ale paradygmatowi uczenia się nadano tam nazwę klasyfikacji bez danych . Na tej samej konferencji pojawił się pierwszy artykuł na temat zero-shot learning w wizji komputerowej pod nazwą zero-data learning . Sam termin zero-shot learning pojawił się po raz pierwszy w literaturze w artykule Palatucciego, Hintona, Pomerleau i Mitchella z 2009 roku w NIPS'09 . Kierunek ten został później spopularyzowany w innym artykule dotyczącym wizji komputerowej i terminem zero-shot learning nadrobione, jako start w jednorazowym uczeniu się , które zostało wprowadzone w wizji komputerowej wiele lat wcześniej.

W wizji komputerowej modele uczenia się typu zero-shot nauczyły się parametrów widzianych klas wraz z ich reprezentacjami klas i opierają się na reprezentacyjnym podobieństwie między etykietami klas, dzięki czemu podczas wnioskowania instancje można klasyfikować do nowych klas.

W przetwarzaniu języka naturalnego kluczowy opracowany kierunek techniczny opiera się na zdolności „rozumienia etykiet” - przedstawiania etykiet w tej samej przestrzeni semantycznej, co dokumenty, które mają być sklasyfikowane. Potwierdza to klasyfikację pojedynczego przykładu bez obserwowania jakichkolwiek danych z adnotacjami, co jest najczystszą formą klasyfikacji zerowej. Oryginalny artykuł wykorzystywał Explicit Semantic Analysis (ESA), ale późniejsze artykuły wykorzystywały inne reprezentacje, w tym reprezentacje gęste. Podejście to zostało również rozszerzone na domeny wielojęzyczne, dokładne wpisywanie jednostek i inne problemy. Co więcej, poza poleganiem wyłącznie na reprezentacjach, podejście obliczeniowe zostało rozszerzone, aby polegać na przeniesieniu z innych zadań, takich jak implikacje tekstowe i odpowiadanie na pytania.

W oryginalnym artykule zwrócono również uwagę, że poza możliwością sklasyfikowania pojedynczego przykładu, gdy podany jest zbiór przykładów, przy założeniu, że pochodzą one z tej samej dystrybucji, możliwe jest ładowanie wydajności w sposób podobny do pół-nadzorowanego (lub uczenie transdukcyjne ).

W przeciwieństwie do standardowej generalizacji w uczeniu maszynowym, gdzie od klasyfikatorów oczekuje się poprawnej klasyfikacji nowych próbek do klas, które już zaobserwowali podczas szkolenia, w ZSL żadne próbki z klas nie zostały podane podczas szkolenia klasyfikatora. Można to zatem postrzegać jako skrajny przypadek adaptacji domeny .

Informacje o wymaganiach wstępnych dla klas zero-shot

Naturalnie, należy podać jakąś formę informacji pomocniczych na temat tych klas zerowych, a tego typu informacji może być kilka rodzajów.

  • Nauka z atrybutami: klasom towarzyszy predefiniowany opis strukturalny. Na przykład w przypadku opisów ptaków może to obejmować „ruda głowa”, „długi dziób”. Atrybuty te są często zorganizowane w ustrukturyzowany sposób kompozycyjny, a uwzględnienie tej struktury poprawia uczenie się. Chociaż to podejście było stosowane głównie w wizji komputerowej, istnieje kilka przykładów na to również w przetwarzaniu języka naturalnego.
  • Uczenie się z opisu tekstowego. Jak wskazano powyżej, był to kluczowy kierunek realizowany w przetwarzaniu języka naturalnego. Tutaj etykiety klas mają znaczenie i często są uzupełniane definicjami lub opisami w języku naturalnym. Może to obejmować na przykład opis klasy w Wikipedii.
  • Podobieństwo klasowe. Tutaj klasy są osadzone w ciągłej przestrzeni. klasyfikator zerowy może przewidzieć, że próbka odpowiada pewnej pozycji w tej przestrzeni, a najbliższa osadzona klasa jest używana jako przewidywana klasa, nawet jeśli podczas uczenia nie zaobserwowano takich próbek.

Uogólnione uczenie się bez strzału

Powyższa konfiguracja ZSL zakłada, że ​​w czasie testu podawane są tylko próbki zerowe, a mianowicie próbki z nowych, niewidocznych klas. W uogólnionym zerowym uczeniu się w czasie testu mogą pojawić się próbki zarówno z nowych, jak i znanych klas. Stwarza to nowe wyzwania dla klasyfikatorów w czasie testów, ponieważ oszacowanie, czy dana próbka jest nowa, czy znana, jest bardzo trudne. Niektóre podejścia do radzenia sobie z tym obejmują:

  • moduł bramkowania, który jest najpierw szkolony, aby zdecydować, czy dana próbka pochodzi z nowej klasy, czy ze starej, a następnie, w czasie wnioskowania, wyprowadza albo twardą decyzję, albo miękką decyzję probabilistyczną
  • moduł generatywny, który jest szkolony w celu generowania reprezentacji cech niewidocznych klas — standardowy klasyfikator może być następnie szkolony na próbkach ze wszystkich klas, widocznych i niewidocznych.

Domeny zastosowania

Uczenie się strzału zerowego zostało zastosowane w następujących dziedzinach:

Zobacz też