Diaryzacja mówcy

Diaryzacja mówcy ( lub diaryzacja ) to proces dzielenia strumienia audio zawierającego ludzką mowę na jednorodne segmenty zgodnie z tożsamością każdego mówcy. Może poprawić czytelność automatycznej transkrypcji mowy poprzez uporządkowanie strumienia audio w zwroty mówców, a gdy jest używany razem z funkcją rozpoznawania mówcy systemów, zapewniając prawdziwą tożsamość mówiącego. Służy do odpowiedzi na pytanie „kto mówił kiedy?” Diarisation mówców to połączenie segmentacji mówców i grupowania mówców. Pierwszy ma na celu znalezienie punktów zmiany mówcy w strumieniu audio. Drugi ma na celu grupowanie segmentów mowy na podstawie charakterystyki mówcy.

Wraz z rosnącą liczbą audycji, nagrań spotkań i poczty głosowej gromadzonych każdego roku, dziennikarstwo mówców spotkało się z dużym zainteresowaniem społeczności językowej, o czym świadczą szczegółowe oceny poświęcone mu pod auspicjami Narodowego Instytutu Standardów i Technologii dla telefonii przemówienia, transmitować wiadomości i spotkania.

Główne rodzaje systemów diaryzacyjnych

W dziennikarstwie mówców jedną z najpopularniejszych metod jest użycie modelu mieszaniny Gaussa do modelowania każdego z mówców i przypisanie odpowiednich ramek każdemu mówcy za pomocą ukrytego modelu Markowa . Istnieją dwa główne rodzaje scenariuszy grupowania. Pierwsza z nich jest zdecydowanie najbardziej popularna i nosi nazwę Bottom-Up. Algorytm rozpoczyna się od podziału pełnej zawartości audio na szereg klastrów i stopniowo próbuje połączyć nadmiarowe klastry, aby osiągnąć sytuację, w której każdy klaster odpowiada rzeczywistemu mówcy. Druga strategia grupowania nazywana jest odgórną i zaczyna się od pojedynczego klastra dla wszystkich danych audio i próbuje podzielić go iteracyjnie, aż do osiągnięcia liczby klastrów równej liczbie mówców. Recenzję z 2010 roku można znaleźć pod adresem [1] .

Niedawno diaryzacja mówców jest wykonywana dzięki sieciom neuronowym , a cięższe obliczenia GPU umożliwiły bardziej wydajny algorytm diaryzacji.

Oprogramowanie do dialogów mówców typu open source

Istnieje kilka inicjatyw typu open source dotyczących dziennikarstwa mówców (w kolejności alfabetycznej):

  • ALIZE Speaker Diarization (ostatnia aktualizacja repozytorium: lipiec 2016; ostatnie wydanie: luty 2013, wersja: 3.0): ALIZE Diarization System, opracowany na Uniwersytecie w Awinionie, dostępna jest wersja 2.0 [2 ] .
  • Audioseg (ostatnia aktualizacja repozytorium: maj 2014; ostatnie wydanie: styczeń 2010, wersja: 1.2): AudioSeg to zestaw narzędzi poświęcony segmentacji audio i klasyfikacji strumieni audio. [3] .
  • pyannote.audio (ostatnia aktualizacja repozytorium: sierpień 2022 r., ostatnie wydanie: lipiec 2022 r., wersja: 2.0): pyannote.audio to zestaw narzędzi typu open source napisany w języku Python do tworzenia dzienników mówców. [4] .
  • pyAudioAnalysis (ostatnia aktualizacja repozytorium: sierpień 2018): Python Audio Analysis Library: Feature Extraction, Classification, Segmentation and Applications [5]
  • SHoUT (ostatnia aktualizacja: grudzień 2010; wersja: 0.3): SHoOUT to pakiet oprogramowania opracowany na Uniwersytecie Twente w celu wspomagania badań nad rozpoznawaniem mowy. SHoUT to holenderski skrót od Speech Recognition Research na Uniwersytecie Twente . [6]
  • SpkDiarization (ostatnie wydanie: wrzesień 2013, wersja: 8.4.1): narzędzie LIUM_SpkDiarization [7] .
  1. ^ Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korszunow, Paweł; Brutti, Alessio; Serizel, Romain; Wincenty, Emmanuel; Evans, Mikołaj; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). „Szybkie zgłoszenie do DIHARD II: wkład i wyciągnięte wnioski” . arXiv : 1911.02388 [ eess.AS ].
  2. ^ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. „Ulepszona diaryzacja mówców za pomocą identyfikacji mówców” . Źródło 2012-01-25 .
  3. ^ Kotti, Małgorzata; Moschou, Vassiliki; Kotropoulos, Konstantyn. „Segmentacja i klastrowanie głośników” (PDF) . Źródło 2012-01-25 .
  4. ^ „Projekt oceny bogatej transkrypcji” . NIST . Źródło 2012-01-25 .
  5. Bibliografia _ Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (26.11.2021). „Przegląd dziennikarstwa mówców: ostatnie postępy w zakresie głębokiego uczenia się”. arXiv : 2101.09624 [ eess.AS ].

Bibliografia