Deskryptor wizualny

W wizji komputerowej deskryptory wizualne lub deskryptory obrazu to opisy wizualnych cech treści w obrazach , filmach lub algorytmach lub aplikacjach, które tworzą takie opisy . Opisują podstawowe cechy, takie jak między innymi kształt , kolor , faktura lub ruch .

Wstęp

W wyniku nowych technologii komunikacyjnych i masowego wykorzystania Internetu w naszym społeczeństwie ilość informacji audiowizualnych dostępnych w formacie cyfrowym znacznie wzrasta. W związku z tym konieczne stało się zaprojektowanie systemów pozwalających na opisanie zawartości kilku rodzajów multimedialnych w celu ich wyszukiwania i klasyfikowania.

Deskryptory audiowizualne odpowiadają za opis treści. Deskryptory te mają dobrą wiedzę na temat obiektów i zdarzeń znalezionych w filmie, obrazie lub dźwięku i pozwalają na szybkie i wydajne wyszukiwanie treści audiowizualnych.

System ten można porównać do wyszukiwarek treści tekstowych. Chociaż jest pewne, że stosunkowo łatwo jest znaleźć tekst za pomocą komputera, znacznie trudniej jest znaleźć konkretne części audio i wideo. Na przykład wyobraź sobie, że ktoś przeszukuje scenę przedstawiającą szczęśliwą osobę. Szczęście jest uczuciem, a jego kształt, kolor i faktura nie są widoczne na obrazach.

Opis zawartości audiowizualnej nie jest zadaniem powierzchownym i jest niezbędny do efektywnego wykorzystania tego typu archiwów. Systemem standaryzacji zajmującym się deskryptorami audiowizualnymi jest MPEG-7 ( Motion Picture Expert Group - 7 ).

typy

Deskryptory to pierwszy krok do ustalenia związku między pikselami zawartymi w obrazie cyfrowym a tym, co człowiek pamięta po obejrzeniu obrazu lub grupy obrazów po kilku minutach.

Deskryptory wizualne dzielą się na dwie główne grupy:

Deskryptory informacji ogólnych: zawierają deskryptory niskiego poziomu, które opisują kolor, kształt, regiony , tekstury i ruch.
Deskryptory informacji o określonej domenie: dostarczają informacji o obiektach i zdarzeniach w scenie. Konkretnym przykładem byłoby rozpoznawanie twarzy .

Ogólne deskryptory informacji

Deskryptory informacji ogólnych składają się z zestawu deskryptorów obejmujących różne podstawowe i elementarne cechy, takie jak: kolor, tekstura, kształt, ruch, lokalizacja i inne. Opis ten jest generowany automatycznie w wyniku przetwarzania sygnału .

Kolor

To najbardziej podstawowa jakość treści wizualnych. Do opisu koloru zdefiniowano pięć narzędzi. Trzy pierwsze narzędzia reprezentują rozkład kolorów, a ostatnie opisują relacje kolorów między sekwencjami lub grupami obrazów :

Deskryptor dominującego koloru (DCD)
Skalowalny deskryptor kolorów (SCD)
Deskryptor struktury koloru (CSD)
Deskryptor układu kolorów (CLD)
Grupa ramek (GoF) lub grupa obrazów (GoP)

Tekstura

Jest to ważna cecha w celu opisania obrazu. Deskryptory tekstur charakteryzują tekstury lub regiony obrazu. Obserwują jednorodność regionu i histogramy granic tych regionów. Zestaw deskryptorów tworzą:

Jednorodny deskryptor tekstury (HTD)
Deskryptor przeglądania tekstur (TBD)
Deskryptor histogramu krawędzi (EHD)

Kształt

Zawiera ważne informacje semantyczne ze względu na zdolność człowieka do rozpoznawania obiektów po ich kształcie. Jednak informacje te można wyodrębnić tylko za pomocą segmentacji podobnej do tej, którą realizuje ludzki układ wzrokowy. Obecnie taki system segmentacji nie jest jeszcze dostępny, istnieje jednak szereg algorytmów, które uważa się za dobre przybliżenie. Te deskryptory opisują regiony, kontury i kształty dla 2D i objętości 3D . Deskryptory kształtu są następujące:

Deskryptor kształtu oparty na regionie (RSD)
Deskryptor kształtu oparty na konturach (CSD)
Deskryptor kształtu 3-W (3-D SD)

Ruch

Jest zdefiniowany przez cztery różne deskryptory, które opisują ruch w sekwencji wideo . Ruch jest powiązany z ruchem obiektów w sekwencji oraz z kamery . Ta ostatnia informacja jest dostarczana przez urządzenie przechwytujące, podczas gdy reszta jest realizowana za pomocą przetwarzania obrazu . Zestaw deskryptorów jest następujący:

Deskryptor aktywności ruchu (MAD)
Deskryptor ruchu kamery (CMD)
Deskryptor trajektorii ruchu (MTD)
Wypaczenie i parametryczny deskryptor ruchu (WMD i PMD)

Lokalizacja

Położenie elementów na obrazie służy do opisu elementów w domenie przestrzennej. Ponadto elementy mogą znajdować się również w domenie czasowej:

Deskryptor lokalizatora regionu (RLD)
Deskryptor lokalizatora czasoprzestrzennego (STLD)

Określone deskryptory informacji o domenie

Te deskryptory, które dostarczają informacji o obiektach i zdarzeniach w scenie, nie są łatwe do wyodrębnienia, tym bardziej, gdy ekstrakcja ma być wykonana automatycznie. Niemniej jednak można je przetwarzać ręcznie.

Jak wspomniano wcześniej, rozpoznawanie twarzy jest konkretnym przykładem aplikacji, która próbuje automatycznie uzyskać te informacje.

Aplikacje deskryptorów

Spośród wszystkich aplikacji najważniejsze to:

Wyszukiwarki i klasyfikatory dokumentów multimedialnych .
Biblioteka cyfrowa : deskryptory wizualne umożliwiają bardzo szczegółowe i konkretne wyszukiwanie dowolnego filmu lub obrazu za pomocą różnych parametrów wyszukiwania. Na przykład wyszukiwanie filmów, w których występuje znany aktor, wyszukiwanie filmów zawierających górę Everest itp.
Spersonalizowany elektroniczny serwis informacyjny.
Możliwość automatycznego połączenia z kanałem telewizyjnym transmitującym np. mecz piłki nożnej, gdy zawodnik zbliża się do pola bramkowego.
Kontrola i filtrowanie konkretnych treści audiowizualnych, takich jak przemoc lub materiały pornograficzne. Również autoryzacja niektórych multimedialnych .

Zobacz też

BS Manjunath (redaktor), Philippe Salembier (redaktor) i Thomas Sikora (redaktor): Wprowadzenie do MPEG-7: Interfejs opisu treści multimedialnych . Wiley & Sons, kwiecień 2002 - ISBN 0-471-48678-7