Wizualna uwaga czasowa

Klatki wideo kategorii akcji na poręczach równoległych w zbiorze danych UCF-101 (a) Najwyżej ocenione cztery klatki wideo z wagą uwagi czasowej , w których atleta występuje na poręczach; (b) Najniżej ocenione cztery klatki wideo z wagą uwagi czasowej , w których zawodnik stoi na ziemi. Wszystkie wagi są przewidywane przez algorytm ATW CNN. Klatki wideo o dużej wadze zazwyczaj rejestrują najbardziej charakterystyczne ruchy związane z kategorią akcji.

Wizualna uwaga czasowa jest szczególnym przypadkiem uwagi wzrokowej , która obejmuje kierowanie uwagi na określony moment czasu. Podobnie jak ich przestrzenny odpowiednik, wizualna uwaga przestrzenna , te moduły uwagi zostały szeroko zaimplementowane w analityce wideo w wizji komputerowej , aby zapewnić lepszą wydajność i możliwe do interpretacji przez człowieka wyjaśnienie modeli głębokiego uczenia się .

Ponieważ mechanizm wizualnej uwagi przestrzennej pozwala ludzkim i / lub komputerowym systemom wizyjnym skupić się bardziej na semantycznie bardziej istotnych obszarach w przestrzeni, moduły wizualnej uwagi czasowej umożliwiają algorytmom uczenia maszynowego większy nacisk na krytyczne klatki wideo w zadaniach analizy wideo , takich jak rozpoznawanie działań człowieka . W splotowych sieciach neuronowych priorytetyzacja wprowadzona przez mechanizm uwagi jest regularnie wdrażana jako liniowa warstwa ważenia z parametrami określonymi przez oznakowane dane treningowe.

Zastosowanie w rozpoznawaniu działań

Architektura ATW CNN. Trzy strumienie CNN są używane odpowiednio do przetwarzania przestrzennych obrazów RGB, obrazów czasowego przepływu optycznego i obrazów przepływu optycznego z odkształceniem czasowym. Model uwagi jest wykorzystywany do przypisania wag czasowych między fragmentami dla każdego strumienia/modalności. Suma ważona służy do łączenia prognoz z trzech strumieni/modalności.

Najnowsze algorytmy segmentacji wideo często wykorzystują zarówno przestrzenne, jak i czasowe mechanizmy uwagi. Badania nad rozpoznawaniem ludzkich działań znacznie przyspieszyły od czasu wprowadzenia potężnych narzędzi, takich jak konwolucyjne sieci neuronowe (CNN) . Jednak skuteczne metody włączania informacji czasowych do CNN są nadal aktywnie badane. Zmotywowany popularnymi modelami uwagi rekurencyjnej w przetwarzaniu języka naturalnego , w filmach proponowany jest CNN uwzględniający uwagę w czasie (ATW CNN), który osadza model uwagi wizualnej w wielostrumieniowym CNN ważonym czasowo. Ten model uwagi jest realizowany jako ważenie czasowe i skutecznie zwiększa wydajność rozpoznawania reprezentacji wideo. Poza tym każdy strumień w proponowanej strukturze ATW CNN jest w stanie trenować od końca do końca, przy czym zarówno parametry sieci, jak i wagi czasowe są optymalizowane przez stochastyczny spadek gradientu (SGD) z propagacją wsteczną . Wyniki eksperymentów pokazują, że mechanizm uwagi ATW CNN znacząco przyczynia się do wzrostu wydajności przy bardziej dyskryminujących fragmentach, koncentrując się na bardziej odpowiednich segmentach wideo.


Zobacz też