Wielkie wyzwanie rozpoznawania twarzy

Konkurs Face Recognition Grand Challenge (FRGC) był prowadzony od maja 2004 do marca 2006 w celu promowania i rozwijania technologii rozpoznawania twarzy . Był następcą testu dostawcy rozpoznawania twarzy .

Przegląd

Głównym celem FRGC było promowanie i rozwijanie technologii rozpoznawania twarzy zaprojektowanej w celu wspierania istniejących wysiłków rządu Stanów Zjednoczonych w zakresie rozpoznawania twarzy . W ramach projektu FRGC opracowano nowe techniki rozpoznawania twarzy i prototypowe systemy oraz zwiększono wydajność o rząd wielkości. FRGC była otwarta na rozpoznawanie twarzy naukowców i programistów w firmach, środowiskach akademickich i instytucjach badawczych. FRGC trwał od maja 2004 do marca 2006.

FRGC składał się z coraz trudniejszych wyzwań. Każdy problem prowokacyjny składał się z zestawu danych obrazów twarzy i określonego zestawu eksperymentów.

Istnieją trzy główne kandydatury do ulepszenia algorytmów rozpoznawania twarzy : obrazy o wysokiej rozdzielczości, trójwymiarowe (3D) rozpoznawanie twarzy oraz nowe techniki wstępnego przetwarzania. Obecne systemy rozpoznawania twarzy są zaprojektowane do pracy na stosunkowo małych nieruchomych obrazach twarzy. Tradycyjną metodą pomiaru wielkości twarzy jest liczba pikseli między środkami oczu. Na obecnych obrazach między środkami oczu znajduje się od 40 do 60 pikseli (10 000 do 20 000 pikseli na twarzy). W FRGC obrazy o wysokiej rozdzielczości składają się z wizerunków twarzy, które mają średnio 250 pikseli między środkami oczu. FRGC ułatwi rozwój nowych algorytmów wykorzystujących dodatkowe informacje zawarte w obrazach o wysokiej rozdzielczości.

Trójwymiarowe algorytmy rozpoznawania twarzy identyfikują twarze na podstawie trójwymiarowego kształtu twarzy osoby. W obecnych systemach rozpoznawania twarzy zmiany oświetlenia i ułożenia twarzy zmniejszają wydajność. Ponieważ na kształt twarzy nie mają wpływu zmiany oświetlenia ani pozy, rozpoznawanie twarzy 3D może poprawić wydajność w tych warunkach.

W ciągu ostatnich kilku lat ^{[ kiedy? ]} nastąpił postęp w grafice komputerowej i wizji komputerowej w modelowaniu oświetlenia i zmianach pozy w obrazach twarzy. Postępy te doprowadziły do opracowania nowych algorytmów komputerowych, które mogą automatycznie korygować oświetlenie i zmiany pozy w obrazach twarzy. Te nowe algorytmy działają poprzez wstępne przetwarzanie obrazu twarzy w celu skorygowania oświetlenia i pozy przed przetworzeniem przez system rozpoznawania twarzy. Część FRGC zajmująca się przetwarzaniem wstępnym będzie mierzyć wpływ nowych algorytmów przetwarzania wstępnego na wydajność rozpoznawania.

Struktura wielkiego wyzwania rozpoznawania twarzy

Struktura FRGC opiera się na wyzwaniach, które mają rzucić wyzwanie naukowcom, aby osiągnęli cel wydajności FRGC.

Istnieją trzy aspekty FRGC, które będą nowe dla społeczności rozpoznawania twarzy. Pierwszym aspektem jest rozmiar FRGC pod względem danych. Zbiór danych FRGC zawiera 50 000 nagrań. Drugim aspektem jest złożoność FRGC. Poprzednie zestawy danych rozpoznawania twarzy były ograniczone do nieruchomych obrazów. FRGC będzie składać się z trzech trybów:

zdjęcia w wysokiej rozdzielczości
Obrazy 3D
wiele obrazów osoby.

Trzecim nowym aspektem jest infrastruktura. Infrastrukturę dla FRGC zapewni Biometric Experimentation Environment (BEE), oparta na języku XML platforma do opisywania i dokumentowania eksperymentów obliczeniowych. BEE umożliwi opis i dystrybucję eksperymentów we wspólnym formacie, zapisywanie nieprzetworzonych wyników eksperymentu we wspólnym formacie, analizę i prezentację surowych wyników we wspólnym formacie oraz dokumentację formatu eksperymentu we wspólnym formacie . Po raz pierwszy środowisko obliczeniowo-eksperymentalne wspierało wyzwanie w zakresie rozpoznawania twarzy lub danych biometrycznych.

Zestaw danych FRGC

Dystrybucja danych FRGC składa się z trzech części. Pierwszym z nich jest zestaw danych FRGC. Druga część to FRGC BEE. Dystrybucja BEE zawiera wszystkie zestawy danych do wykonania i oceny sześciu eksperymentów. Trzecia część to zestaw podstawowych algorytmów dla eksperymentów od 1 do 4. Przy użyciu wszystkich trzech komponentów możliwe jest przeprowadzenie eksperymentów od 1 do 4, od przetwarzania surowych obrazów do tworzenia charakterystyki operacyjnej odbiornika (ROC).

Dane dla FRGC składają się z 50 000 nagrań podzielonych na partycje szkoleniowe i walidacyjne. Partycja szkoleniowa jest przeznaczona do uczenia algorytmów, a partycja walidacyjna służy do oceny wydajności podejścia w warunkach laboratoryjnych. Partycja walidacyjna składa się z danych z 4003 sesji tematycznych. Sesja przedmiotowa to zestaw wszystkich zdjęć osoby wykonanych za każdym razem, gdy zbierane są dane biometryczne tej osoby, i składa się z czterech kontrolowanych nieruchomych obrazów, dwóch niekontrolowanych nieruchomych obrazów i jednego trójwymiarowego obrazu. Kontrolowane zdjęcia zostały wykonane w warunkach studyjnych, są to pełne zdjęcia twarzy z przodu wykonane w dwóch warunkach oświetleniowych iz dwoma wyrazami twarzy (uśmiechnięty i neutralny). Niekontrolowane zdjęcia wykonano w różnych warunkach oświetleniowych; np. korytarze, atria lub na zewnątrz. Każdy zestaw niekontrolowanych obrazów zawiera dwa wyrażenia, uśmiechnięty i neutralny. Obraz 3D wykonano w kontrolowanych warunkach oświetleniowych. Obrazy 3D składają się zarówno z zakresu, jak i obrazu tekstury. Obrazy 3D zostały zarejestrowane przez czujnik serii Minolta Vivid 900/910.

Rozkład FRGC składa się z sześciu eksperymentów. W eksperymencie 1 galeria składa się z pojedynczego kontrolowanego nieruchomego obrazu osoby, a każda sonda składa się z jednego kontrolowanego nieruchomego obrazu. Eksperyment 1 jest eksperymentem kontrolnym. Eksperyment 2 bada wpływ używania wielu nieruchomych obrazów osoby na wydajność. W eksperymencie 2 każda próbka biometryczna składa się z czterech kontrolowanych zdjęć osoby wykonanych podczas sesji tematycznej. Na przykład galeria składa się z czterech zdjęć każdej osoby, przy czym wszystkie zdjęcia zostały zrobione w tej samej sesji tematycznej. Podobnie sonda składa się teraz z czterech obrazów osoby.

Eksperyment 3 mierzy wydajność rozpoznawania twarzy 3D. W eksperymencie 3 galeria i zestaw sond składają się z trójwymiarowych obrazów osoby. Eksperyment 4 mierzy wydajność rozpoznawania z niekontrolowanych obrazów. W eksperymencie 4 galeria składa się z pojedynczego kontrolowanego nieruchomego obrazu, a zestaw sond składa się z jednego niekontrolowanego nieruchomego obrazu.

Eksperymenty 5 i 6 sprawdzają porównanie obrazów 3D i 2D. W obu eksperymentach galeria składa się z obrazów 3D. W eksperymencie 5 zestaw sond składa się z jednego kontrolowanego destylatora. W eksperymencie 6 zestaw sond składa się z jednego niekontrolowanego aparatu destylacyjnego.

Sponsorzy

Ten artykuł zawiera materiał należący do domeny publicznej z NIST Face Recognition Grand Challenge . Narodowy Instytut Norm i Technologii .

Linki zewnętrzne