Diaryzacja mówcy

Diaryzacja mówcy ( lub diaryzacja ) to proces dzielenia strumienia audio zawierającego ludzką mowę na jednorodne segmenty zgodnie z tożsamością każdego mówcy. Może poprawić czytelność automatycznej transkrypcji mowy poprzez uporządkowanie strumienia audio w zwroty mówców, a gdy jest używany razem z funkcją rozpoznawania mówcy systemów, zapewniając prawdziwą tożsamość mówiącego. Służy do odpowiedzi na pytanie „kto mówił kiedy?” Diarisation mówców to połączenie segmentacji mówców i grupowania mówców. Pierwszy ma na celu znalezienie punktów zmiany mówcy w strumieniu audio. Drugi ma na celu grupowanie segmentów mowy na podstawie charakterystyki mówcy.

Wraz z rosnącą liczbą audycji, nagrań spotkań i poczty głosowej gromadzonych każdego roku, dziennikarstwo mówców spotkało się z dużym zainteresowaniem społeczności językowej, o czym świadczą szczegółowe oceny poświęcone mu pod auspicjami Narodowego Instytutu Standardów i Technologii dla telefonii przemówienia, transmitować wiadomości i spotkania.

Główne rodzaje systemów diaryzacyjnych

W dziennikarstwie mówców jedną z najpopularniejszych metod jest użycie modelu mieszaniny Gaussa do modelowania każdego z mówców i przypisanie odpowiednich ramek każdemu mówcy za pomocą ukrytego modelu Markowa . Istnieją dwa główne rodzaje scenariuszy grupowania. Pierwsza z nich jest zdecydowanie najbardziej popularna i nosi nazwę Bottom-Up. Algorytm rozpoczyna się od podziału pełnej zawartości audio na szereg klastrów i stopniowo próbuje połączyć nadmiarowe klastry, aby osiągnąć sytuację, w której każdy klaster odpowiada rzeczywistemu mówcy. Druga strategia grupowania nazywana jest odgórną i zaczyna się od pojedynczego klastra dla wszystkich danych audio i próbuje podzielić go iteracyjnie, aż do osiągnięcia liczby klastrów równej liczbie mówców. Recenzję z 2010 roku można znaleźć pod adresem [1] .

Niedawno diaryzacja mówców jest wykonywana dzięki sieciom neuronowym , a cięższe obliczenia GPU umożliwiły bardziej wydajny algorytm diaryzacji.

Oprogramowanie do dialogów mówców typu open source

Istnieje kilka inicjatyw typu open source dotyczących dziennikarstwa mówców (w kolejności alfabetycznej):

ALIZE Speaker Diarization (ostatnia aktualizacja repozytorium: lipiec 2016; ostatnie wydanie: luty 2013, wersja: 3.0): ALIZE Diarization System, opracowany na Uniwersytecie w Awinionie, dostępna jest wersja 2.0 [2 ] .
Audioseg (ostatnia aktualizacja repozytorium: maj 2014; ostatnie wydanie: styczeń 2010, wersja: 1.2): AudioSeg to zestaw narzędzi poświęcony segmentacji audio i klasyfikacji strumieni audio. [3] .
pyannote.audio (ostatnia aktualizacja repozytorium: sierpień 2022 r., ostatnie wydanie: lipiec 2022 r., wersja: 2.0): pyannote.audio to zestaw narzędzi typu open source napisany w języku Python do tworzenia dzienników mówców. [4] .
pyAudioAnalysis (ostatnia aktualizacja repozytorium: sierpień 2018): Python Audio Analysis Library: Feature Extraction, Classification, Segmentation and Applications [5]
SHoUT (ostatnia aktualizacja: grudzień 2010; wersja: 0.3): SHoOUT to pakiet oprogramowania opracowany na Uniwersytecie Twente w celu wspomagania badań nad rozpoznawaniem mowy. SHoUT to holenderski skrót od Speech Recognition Research na Uniwersytecie Twente . [6]
SpkDiarization (ostatnie wydanie: wrzesień 2013, wersja: 8.4.1): narzędzie LIUM_SpkDiarization [7] .

^ Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korszunow, Paweł; Brutti, Alessio; Serizel, Romain; Wincenty, Emmanuel; Evans, Mikołaj; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). „Szybkie zgłoszenie do DIHARD II: wkład i wyciągnięte wnioski” . arXiv : 1911.02388 [ eess.AS ].
^ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. „Ulepszona diaryzacja mówców za pomocą identyfikacji mówców” . Źródło 2012-01-25 .
^ Kotti, Małgorzata; Moschou, Vassiliki; Kotropoulos, Konstantyn. „Segmentacja i klastrowanie głośników” (PDF) . Źródło 2012-01-25 .
^ „Projekt oceny bogatej transkrypcji” . NIST . Źródło 2012-01-25 .
Bibliografia _ Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (26.11.2021). „Przegląd dziennikarstwa mówców: ostatnie postępy w zakresie głębokiego uczenia się”. arXiv : 2101.09624 [ eess.AS ].

Bibliografia

Anguera, Xavier (2012). „Diaryzacja mówców: przegląd ostatnich badań” . Transakcje IEEE dotyczące przetwarzania dźwięku, mowy i języka . Transakcje IEEE/ACM dotyczące przetwarzania dźwięku, mowy i języka. 20 (2): 356–370. CiteSeerX 10.1.1.470.6149 . doi : 10.1109/TASL.2011.2125954 . ISSN 1558-7916 . S2CID 206602044 .
Beigi, Homayoon (2011). Podstawy rozpoznawania mówców . Nowy Jork: Springer. ISBN 978-0-387-77591-3 .

[1] Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korszunow, Paweł; Brutti, Alessio; Serizel, Romain; Wincenty, Emmanuel; Evans, Mikołaj; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). „Szybkie zgłoszenie do DIHARD II: wkład i wyciągnięte wnioski” . arXiv : 1911.02388 [ eess.AS ].

[2] Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. „Ulepszona diaryzacja mówców za pomocą identyfikacji mówców” . Źródło 2012-01-25 .

[3] Kotti, Małgorzata; Moschou, Vassiliki; Kotropoulos, Konstantyn. „Segmentacja i klastrowanie głośników” (PDF) . Źródło 2012-01-25 .

[4] „Projekt oceny bogatej transkrypcji” . NIST . Źródło 2012-01-25 .

[5] Bibliografia _ Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (26.11.2021). „Przegląd dziennikarstwa mówców: ostatnie postępy w zakresie głębokiego uczenia się”. arXiv : 2101.09624 [ eess.AS ].