Wizualna uwaga czasowa
Wizualna uwaga czasowa jest szczególnym przypadkiem uwagi wzrokowej , która obejmuje kierowanie uwagi na określony moment czasu. Podobnie jak ich przestrzenny odpowiednik, wizualna uwaga przestrzenna , te moduły uwagi zostały szeroko zaimplementowane w analityce wideo w wizji komputerowej , aby zapewnić lepszą wydajność i możliwe do interpretacji przez człowieka wyjaśnienie modeli głębokiego uczenia się .
Ponieważ mechanizm wizualnej uwagi przestrzennej pozwala ludzkim i / lub komputerowym systemom wizyjnym skupić się bardziej na semantycznie bardziej istotnych obszarach w przestrzeni, moduły wizualnej uwagi czasowej umożliwiają algorytmom uczenia maszynowego większy nacisk na krytyczne klatki wideo w zadaniach analizy wideo , takich jak rozpoznawanie działań człowieka . W splotowych sieciach neuronowych priorytetyzacja wprowadzona przez mechanizm uwagi jest regularnie wdrażana jako liniowa warstwa ważenia z parametrami określonymi przez oznakowane dane treningowe.
Zastosowanie w rozpoznawaniu działań
Najnowsze algorytmy segmentacji wideo często wykorzystują zarówno przestrzenne, jak i czasowe mechanizmy uwagi. Badania nad rozpoznawaniem ludzkich działań znacznie przyspieszyły od czasu wprowadzenia potężnych narzędzi, takich jak konwolucyjne sieci neuronowe (CNN) . Jednak skuteczne metody włączania informacji czasowych do CNN są nadal aktywnie badane. Zmotywowany popularnymi modelami uwagi rekurencyjnej w przetwarzaniu języka naturalnego , w filmach proponowany jest CNN uwzględniający uwagę w czasie (ATW CNN), który osadza model uwagi wizualnej w wielostrumieniowym CNN ważonym czasowo. Ten model uwagi jest realizowany jako ważenie czasowe i skutecznie zwiększa wydajność rozpoznawania reprezentacji wideo. Poza tym każdy strumień w proponowanej strukturze ATW CNN jest w stanie trenować od końca do końca, przy czym zarówno parametry sieci, jak i wagi czasowe są optymalizowane przez stochastyczny spadek gradientu (SGD) z propagacją wsteczną . Wyniki eksperymentów pokazują, że mechanizm uwagi ATW CNN znacząco przyczynia się do wzrostu wydajności przy bardziej dyskryminujących fragmentach, koncentrując się na bardziej odpowiednich segmentach wideo.