Multimodalna analiza nastrojów
Multimodalna analiza nastrojów to nowy wymiar [ pawiej prozy ] tradycyjnej tekstowej analizy nastrojów , która wykracza poza analizę tekstów i obejmuje inne modalności , takie jak dane audio i wizualne. Może być bimodalny, który obejmuje różne kombinacje dwóch modalności, lub trimodalny, który obejmuje trzy modalności. Dzięki ogromnej ilości danych z mediów społecznościowych dostępnych online w różnych formach, takich jak filmy i obrazy, konwencjonalna analiza nastrojów oparta na tekście ewoluował w bardziej złożone modele multimodalnej analizy nastrojów, które można zastosować w rozwoju wirtualnych asystentów , analizie recenzji filmów na YouTube, analizie filmów z wiadomościami i rozpoznawaniu emocji (czasami określanym jako wykrywanie emocji ), takich jak monitorowanie depresji , m.in. .
Podobnie jak w przypadku tradycyjnej analizy nastrojów , jednym z najbardziej podstawowych zadań multimodalnej analizy nastrojów jest klasyfikacja nastrojów, która klasyfikuje różne nastroje na kategorie, takie jak pozytywne, negatywne lub neutralne . Złożoność analizy funkcji tekstowych, dźwiękowych i wizualnych w celu wykonania takiego zadania wymaga zastosowania różnych technik łączenia, takich jak łączenie na poziomie funkcji, na poziomie decyzji i łączenie hybrydowe. Wydajność tych technik fuzji i algorytmów klasyfikacji zastosowane, zależą od rodzaju zastosowanych w analizie cech tekstowych, dźwiękowych i wizualnych.
Cechy
Inżynieria cech , która obejmuje wybór cech, które są wprowadzane do algorytmów uczenia maszynowego , odgrywa kluczową rolę w wydajności klasyfikacji tonacji. W multimodalnej analizie nastrojów stosuje się kombinację różnych funkcji tekstowych, dźwiękowych i wizualnych.
Cechy tekstowe
Podobnie jak w przypadku konwencjonalnej analizy nastrojów opartej na tekście , niektóre z najczęściej używanych funkcji tekstowych w multimodalnej analizie nastrojów to unigramy i n-gramy , które są zasadniczo sekwencjami słów w danym dokumencie tekstowym. Cechy te są stosowane przy użyciu reprezentacji cech typu „ bag-of-words” lub „bag-of-concepts”, w których słowa lub koncepcje są reprezentowane jako wektory w odpowiedniej przestrzeni.
Funkcje audio
sentymentu i emocji jest widoczna w różnych właściwościach fonetycznych i prozodycznych zawartych w funkcjach audio. Niektóre z najważniejszych funkcji audio wykorzystywanych w multimodalnej analizie nastrojów to cepstrum częstotliwości mel (MFCC) , środek ciężkości widma , strumień widmowy , histogram uderzeń, suma uderzeń, najsilniejsze uderzenie, czas trwania pauzy i ton . OpenSMILE i Praat to popularne zestawy narzędzi typu open source do wydobywania takich funkcji audio.
Cechy wizualne
Jedną z głównych zalet analizy filmów pod kątem samych tekstów jest obecność bogatych wskazówek dotyczących nastrojów w danych wizualnych. Cechy wizualne obejmują mimikę , która ma ogromne znaczenie w uchwyceniu uczuć i emocji , ponieważ jest głównym kanałem kształtowania obecnego stanu umysłu danej osoby. W szczególności uśmiech jest uważany za jeden z najbardziej predykcyjnych wizualnych wskazówek w multimodalnej analizie nastrojów. OpenFace to zestaw narzędzi do analizy twarzy typu open source, który umożliwia wyodrębnianie i zrozumienie takich cech wizualnych.
Techniki fuzji
W przeciwieństwie do tradycyjnej tekstowej analizy nastrojów , multimodalna analiza nastrojów podlega procesowi łączenia, w którym dane z różnych modalności (tekst, dźwięk lub obraz) są łączone i analizowane razem. Istniejące podejścia do fuzji danych multimodalnej analizy nastrojów można podzielić na trzy główne kategorie: fuzja na poziomie funkcji, na poziomie decyzji i fuzja hybrydowa, a wydajność klasyfikacji nastrojów zależy od zastosowanej techniki fuzji.
Fuzja na poziomie funkcji
Fuzja na poziomie funkcji (czasami nazywana fuzją wczesną) gromadzi wszystkie cechy z każdej modalności (tekstowej, dźwiękowej lub wizualnej) i łączy je razem w jeden wektor cech, który ostatecznie jest wprowadzany do algorytmu klasyfikacji. Jedną z trudności we wdrażaniu tej techniki jest integracja cech heterogenicznych.
Fuzja na poziomie decyzji
Fuzja na poziomie decyzji (czasami nazywana późną fuzją) przekazuje dane z każdej modalności (tekstowej, dźwiękowej lub wizualnej) niezależnie do własnego algorytmu klasyfikacji i uzyskuje ostateczne wyniki klasyfikacji nastrojów, łącząc każdy wynik w jeden wektor decyzyjny. Jedną z zalet tej techniki fuzji jest to, że eliminuje ona potrzebę łączenia heterogenicznych danych, a każda modalność może wykorzystywać najbardziej odpowiedni algorytm klasyfikacji .
Fuzja hybrydowa
Fuzja hybrydowa to połączenie technik łączenia na poziomie cech i na poziomie decyzji, które wykorzystuje uzupełniające się informacje z obu metod podczas procesu klasyfikacji. Zwykle obejmuje dwuetapową procedurę, w której początkowo przeprowadza się fuzję na poziomie funkcji między dwiema modalnościami, a następnie jako drugi krok stosuje się fuzję na poziomie decyzji, aby połączyć początkowe wyniki z fuzji na poziomie funkcji z pozostałą modalnością .
Aplikacje
Podobnie jak tekstowa analiza nastrojów, multimodalna analiza nastrojów może być stosowana przy opracowywaniu różnych form systemów rekomendacji, takich jak analiza tworzonych przez użytkowników filmów z recenzjami filmów i ogólnych recenzji produktów, w celu przewidywania nastrojów klientów, a następnie tworzyć rekomendacje produktów lub usług. Multimodalna analiza nastrojów odgrywa również ważną rolę w rozwoju wirtualnych asystentów poprzez zastosowanie przetwarzania języka naturalnego (NLP) i uczenia maszynowego techniki. W dziedzinie opieki zdrowotnej multimodalną analizę nastrojów można wykorzystać do wykrywania pewnych schorzeń, takich jak stres , niepokój lub depresja . Multimodalną analizę nastrojów można również zastosować do zrozumienia nastrojów zawartych w programach informacyjnych wideo, co jest uważane za domenę skomplikowaną i wymagającą, ponieważ nastroje wyrażane przez reporterów są zwykle mniej oczywiste lub neutralne.