Analiza głosu

Analiza głosu to badanie dźwięków mowy do celów innych niż treść językowa, takich jak rozpoznawanie mowy . Badania takie obejmują przede wszystkim medyczną analizę głosu ( foniatria ) , ale także identyfikację mówiącego . Co bardziej kontrowersyjne, niektórzy uważają, że prawdomówność lub stan emocjonalny mówców można określić za pomocą analizy stresu głosowego lub warstwowej analizy głosu.

Metody analizy

Problemy głosowe wymagające analizy głosu najczęściej mają swoje źródło w fałdach głosowych lub kontrolujących je mięśniach krtani, ponieważ fałdy te podlegają siłom kolizji przy każdym cyklu wibracyjnym oraz wysychaniu przez powietrze wtłaczane przez niewielką szczelinę między nimi, a Mięśnie krtani są intensywnie aktywne podczas mowy lub śpiewu i ulegają zmęczeniu. Jednak dynamiczna analiza fałdów głosowych i ich ruchu jest fizycznie trudna. Lokalizacja fałdów głosowych skutecznie uniemożliwia bezpośredni, inwazyjny pomiar ruchu. Mniej inwazyjne metody obrazowania, takie jak zdjęcia rentgenowskie czy ultradźwięki nie działają, ponieważ struny głosowe są otoczone chrząstką, co zniekształca jakość obrazu. Ruchy w strunach głosowych są szybkie, podstawowe częstotliwości mieszczą się zwykle w zakresie od 80 do 300 Hz , co uniemożliwia korzystanie ze zwykłego wideo. Stroboskopowy , a szybkie filmy wideo zapewniają opcję, ale aby zobaczyć fałdy głosowe, sonda światłowodowa prowadząca do kamery musi być umieszczona w gardle, co utrudnia mówienie. Ponadto umieszczanie przedmiotów w gardle zwykle wyzwala odruch wymiotny, który zatrzymuje dźwięczność i zamyka krtań. Ponadto obrazowanie stroboskopowe jest przydatne tylko wtedy, gdy wzór drgań fałdów głosowych jest ściśle okresowy.

Najważniejsze ^{[ według kogo? ]} metody pośrednie to obecnie odwrotne filtrowanie nagrań z mikrofonu lub ustnego przepływu powietrza oraz elektroglottografia (EGG). ^{[ potrzebne źródło ]} W przypadku filtrowania odwrotnego dźwięk mowy (wypromieniowana fala ciśnienia akustycznego uzyskana z mikrofonu) lub fala przepływu powietrza w jamie ustnej z maski z wentylacją obwodową (CV) są rejestrowane poza ustami, a następnie filtrowane metodą matematyczną w celu usunięcia skutków trakt głosowy. Ta metoda szacuje głośnię wejściową do produkcji głosu poprzez rejestrację danych wyjściowych i użycie modelu obliczeniowego do odwrócenia efektów traktu głosowego. Innym rodzajem nieinwazyjnego pośredniego badania ruchu fałdów głosowych jest elektroglotografia, w której elektrody umieszczone po obu stronach gardła badanego na poziomie fałdów głosowych rejestrują zmiany przewodnictwa w gardle w zależności od tego, jak duża część fałdy głosowe stykają się ze sobą. Daje to w ten sposób jednowymiarową informację o obszarze styku. Ani filtrowanie odwrotne, ani EGG nie są wystarczające do pełnego opisania złożonego trójwymiarowego wzorca ruchu fałdów głosowych, ale mogą dostarczyć użytecznych pośrednich dowodów na ten ruch.

Innym sposobem przeprowadzenia analizy głosu jest przyjrzenie się jego charakterystyce. Niektóre cechy głosu to fonacja , wysokość , głośność i stawka. Cechy te można wykorzystać do oceny głosu osoby i mogą pomóc w procesie analizy głosu. Fonację zwykle sprawdza się, analizując różne typy danych zebranych od osoby, takie jak słowa z długimi samogłoskami, słowa z wieloma fonemami lub po prostu typową mowę. Wysokość tonu osoby można ocenić, zmuszając ją do wydawania najwyższych i najniższych możliwych dźwięków, a także dźwięków pomiędzy. Klawiatura może być pomocna w tym procesie. Warto zwrócić uwagę na głośność, ponieważ w przypadku niektórych osób głośność wpływa na sposób, w jaki wytwarzają określone dźwięki. Niektórzy ludzie muszą mówić głośniej dla niektórych fonemów w porównaniu z innymi, aby móc je wytworzyć. ^{[ Potrzebne źródło ]} Można to sprawdzić, prosząc osobę, aby używała tej samej głośności podczas śpiewania gamy. Szybkość jest również ważna, ponieważ pokazuje, jak szybko lub wolno mówi dana osoba.

Zastosowanie w medycynie

Medycznym badaniem głosu może być np. analiza głosu pacjentów, którym usunięto operacyjnie polip ze strun głosowych . Do obiektywnej oceny takich kwestii można zastosować metody komputerowe. Doświadczony terapeuta głosowy może dość wiarygodnie ocenić głos, ale wymaga to intensywnego szkolenia i nadal jest subiektywne.

Innym aktywnym tematem badawczym w medycznej analizie głosu jest ocena obciążenia głosu . Struny głosowe osoby, która mówi przez dłuższy czas, cierpią z powodu zmęczenia — to znaczy proces mówienia obciąża struny głosowe i męczy tkankę. Wśród profesjonalnych użytkowników głosu (np. nauczycieli, sprzedawców) zmęczenie może powodować problemy z głosem i zwolnienia lekarskie. Analiza głosu została zbadana jako obiektywny sposób oceny takich problemów.

Analiza głosu była ważnym czynnikiem w badaniu porażenia strun głosowych. Wpływa na różne funkcje strun głosowych, od mowy po oddychanie, a analiza głosu służy do badania skuteczności tyroplastyki (tyroplastyki medializacyjnej) na strunach głosowych po operacji. Tradycyjna rejestracja głosu stosowana jest przedoperacyjnie do rejestracji głosów wybranych pacjentów w celu porównania ich z nagraniem pooperacyjnym, a także do bardziej złożonych nagrań z wykorzystaniem elektroglottograﬁ i , fotoglottografii i wideokimografii . Specjaliści medyczni mają możliwość odczytywania i rozumienia wyników złożonych nagrań, ale w ramach tych eksperymentów potrzebna jest wiedza specjalisty ds. Głosu, aby uzyskać dokładne wyniki. Eksperci głosowi byli ważni, aby powiązać badanie fizyczne strun głosowych z badaniem neurologicznym, aby zapewnić powodzenie operacji ze względu na ich wyszkolone ucho. Percepcyjna ocena głosu w dużym stopniu zależy od jakości głosu , czynnika ocenianego najlepiej przez specjalistów od głosu ( logopedów). ). Profesjonalny analizator głosu ma wyszkolone ucho i może zablokować nadmiarowe warianty, które mogą wprowadzać w błąd w wynikach.

Zastosowanie w kryminalistyce

Analiza głosu jest wykorzystywana w dziedzinie kryminalistyki zwanej kryminalistyką audio . Analizy te są zazwyczaj przeprowadzane na dowodach w celu oceny autentyczności danego dźwięku, uwydatnienia cech dźwięku, które mogą być ukryte pod rozpraszającym hałasem w tle, interpretacji dźwięku z perspektywy eksperta kryminalistycznego lub w niektórych przypadkach w celu celów identyfikacji mówcy .

Ekspert zastosuje różne techniki w swojej analizie. Minimalne procedury to „krytyczne słuchanie, przebiegów i analiza widmowa ”. Krytyczne słuchanie polega na dokładnym rozbiciu dźwięków pierwszego planu i tła poprzez powtarzane słuchanie. Analiza kształtu fali wizualizuje dźwięk, aby egzaminator mógł zobaczyć wszelkie nieprawidłowości, które mogą wystąpić. Analiza widmowa wizualizuje częstotliwość dźwięku, aby egzaminator mógł wybrać interesujące go cechy.

Jednym ze przypadków, w których dźwięk odegrał większą rolę, jest sprawa Trayvona Martina , w której przeanalizowano nagranie rozmowy telefonicznej z policją w celu ustalenia, czy krzyki w tle pochodziły od George'a Zimmermana czy od Martina .

Głos sądowy

Eksperci w dziedzinie kryminalistyki głosowej analizują nagrania, badając przekazywaną i przechowywaną mowę, ulepszając ją i dekodując na potrzeby dochodzeń karnych, procesów sądowych i agencji federalnych.

Aby wykorzystać nagrania dźwiękowe w sądzie, fonetyk sądowy musi uwierzytelnić nagranie w celu wykrycia manipulacji, wzmocnienia dźwięku i zinterpretowania mowy. Ich pierwszym zadaniem jest upewnienie się, że mowa w używanym nagraniu jest zrozumiała. Często próbki mają niską jakość dźwięku z powodu czynników środowiskowych, takich jak wiatr lub ruch. Innym razem degradacja dźwięku wynika z problemów technologicznych w urządzeniu nagrywającym. Żadna praca dochodzeniowa dotycząca identyfikacji mówcy nie może zostać przeprowadzona, dopóki nagranie nie będzie odpowiedniej jakości. Różne rozwiązania dla słabej zrozumiałości są wykonywane za pomocą programów komputerowych, które pozwalają użytkownikowi filtrować i eliminować szum. Oprogramowanie komputerowe jest również w stanie przekonwertować mowę na widma i przebiegi, co jest przydatne dla fonetyka sądowego. Jednak wszelkie prace wykonywane na nagraniu powinny być wykonywane po wykonaniu kopii oryginalnego nagrania.

Główną częścią pracy fonetyka sądowego jest identyfikacja mówcy. Proces interpretacji może obejmować ułożenie osi czasu, transkrypcję dialogów i identyfikację nieznanych lub niezrozumiałych dźwięków w nagraniu audio. W sądzie biegły ostatecznie służy wyjaśnieniu faktów związanych z dowodami audio, wyjaśniając odpowiednie zasady akustyczne i fizyczne, aby wyjaśnić, czego dowodzi nagranie. Protokoły sporządzane są tak, aby zawierały szczegółowe informacje, jeśli fragment nagrania jest niezrozumiały lub niesłyszalny, wyjaśnienie, co się działo (w nagraniu) oraz opis, czego brakuje w nagraniu.

Identyfikacja mówcy

Analiza głosu odgrywa rolę w identyfikacji mówcy . Dzieje się tak, gdy tożsamość mówcy jest nieznana i należy ją zidentyfikować na podstawie szeregu innych głosów lub podejrzanych w przypadku dochodzenia w sprawie przestępstwa lub procesu sądowego. Właściwa identyfikacja mówcy i głosów, szczególnie w sprawach karnych, zależy od listy czynników, takich jak zażyłość, ekspozycja, opóźnienie, ton głosu, maskowanie głosu i akcenty. Znajomość mówiącego zwiększa szanse na prawidłowe rozpoznanie głosu i jego rozróżnienie. Stopień narażenia na głos pomaga również w prawidłowej identyfikacji głosu, nawet jeśli jest to głos nieznany. Słuchacz, który słucha dłuższej wypowiedzi lub był częściej narażony na głos, lepiej rozpoznaje głos niż ktoś, kto być może był w stanie usłyszeć tylko jedno słowo. Opóźnienie między momentem usłyszenia głosu a momentem zidentyfikowania mówcy również zmniejsza perspektywę zidentyfikowania właściwego mówcy. The ton głosu wpływa na możliwość zidentyfikowania właściwego mówcy. Jeśli ton nie pasuje do tonu mówcy w momencie porównania, trudniej będzie go przeanalizować. Przebranie głosu, na przykład, gdy mówca szepcze, również utrudni możliwość dokładnego dopasowania i zidentyfikowania mówcy. W niektórych przypadkach osoby, które mówią tym samym językiem, co rozmówca, którego głos jest analizowany, będą miały łatwiejszą identyfikację ze względu na akcent i akcent głosu. Identyfikację mówcy dodatkowo komplikują zniekształcenia wynikające z technicznej metody nagrywania oraz kwestie związane z mówcą, takie jak stany emocjonalne lub motywy alternatywne powodujące rozbieżność między jego głosem a nagraniem. Metody identyfikacji mówcy w kryminalistyce obejmują wykorzystanie świadków, którzy są wykorzystywani do identyfikacji słyszanych przez nich głosów, podejście słuchowo-percepcyjne prowadzone przez specjalistę dotyczące suprasegmentów mowy jednostki oraz podejścia komputerowe.

Zobacz też

Bibliografia _ Sahidullah, MD; Saha, Gutam (wrzesień 2020). „Optymalizacja banku filtrów opartego na danych do automatycznej weryfikacji mówców”. Cyfrowe przetwarzanie sygnału . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016/j.dsp.2020.102795 . S2CID 220665533 .
Bibliografia _ Stemple, Józef (2014). Terapia głosowa: studia przypadków klinicznych . Publikowanie w liczbie mnogiej.
Bibliografia _ Lal, BK (2010). „Obiektywna analiza głosu w przypadku polipów głosowych po fonochirurgii mikrokrtani” . Czasopismo medyczne Uniwersytetu Kathmandu . 8 (2): 185–189. doi : 10.3126/kumj.v8i2.3555 . ISSN 1812-2078 . PMID 21209532 .
^ Stemple, Józef C.; Stanley, Jennifer; Lee, Linda (1995). „Obiektywne miary produkcji głosu u osób zdrowych po długotrwałym używaniu głosu”. Dziennik Głosu . 9 (2): 127–133. doi : 10.1016/s0892-1997(05)80245-0 . ISSN 0892-1997 . PMID 7620534 .
^ Gerratt, Bruce R.; Hanson, David G.; Berke, Gerald S.; Precoda, Kristin (1991-01-01). „Fotoglottografia: streszczenie kliniczne” . Dziennik Głosu . 5 (2): 98–105. doi : 10.1016/S0892-1997(05)80173-0 . Źródło 2020-12-16 .
^ Chowdhury, Kanishka; Saha, Somnath; Saha, Vedula Padmini; Kumpel, Sudipta; Chatterjee, Indranil (2013-03-23). „Analiza głosu przed i po operacji po tyroplastyce medializacyjnej w przypadkach jednostronnego porażenia fałdów głosowych” . Indian Journal of Otolaryngology and Head & Neck Surgery . 65 (4): 354–357. doi : 10.1007/s12070-013-0649-3 . ISSN 2231-3796 . PMC 3851511 . PMID 24427598 .
^ Maher, Robert C. (2018). Zasady kryminalistycznej analizy dźwięku . Nowoczesna Akustyka i Przetwarzanie Sygnałów. Cham: Springer International Publishing. s. 1–2. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .
^ Solan, Lawrence M.; Tiersma, Peter M. (2004). Mówiąc o zbrodni . Wydawnictwo Uniwersytetu Chicagowskiego. doi : 10.7208/chicago/9780226767871.001.0001 . ISBN 978-0-226-76793-2 .
^ ^abc ^Maher ^. , Robert C. (2018) Zasady kryminalistycznej analizy dźwięku . Nowoczesna Akustyka i Przetwarzanie Sygnałów. Cham: Springer International Publishing. s. 48–49. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .

Linki zewnętrzne

Społeczność internetowa dotycząca problemów z głosem i zaburzeń głosu (VoiceMatters.net)

[1] Bibliografia _ Sahidullah, MD; Saha, Gutam (wrzesień 2020). „Optymalizacja banku filtrów opartego na danych do automatycznej weryfikacji mówców”. Cyfrowe przetwarzanie sygnału . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016/j.dsp.2020.102795 . S2CID 220665533 .

[2] Bibliografia _ Stemple, Józef (2014). Terapia głosowa: studia przypadków klinicznych . Publikowanie w liczbie mnogiej.

[3] Bibliografia _ Lal, BK (2010). „Obiektywna analiza głosu w przypadku polipów głosowych po fonochirurgii mikrokrtani” . Czasopismo medyczne Uniwersytetu Kathmandu . 8 (2): 185–189. doi : 10.3126/kumj.v8i2.3555 . ISSN 1812-2078 . PMID 21209532 .

[4] Stemple, Józef C.; Stanley, Jennifer; Lee, Linda (1995). „Obiektywne miary produkcji głosu u osób zdrowych po długotrwałym używaniu głosu”. Dziennik Głosu . 9 (2): 127–133. doi : 10.1016/s0892-1997(05)80245-0 . ISSN 0892-1997 . PMID 7620534 .

[5] Gerratt, Bruce R.; Hanson, David G.; Berke, Gerald S.; Precoda, Kristin (1991-01-01). „Fotoglottografia: streszczenie kliniczne” . Dziennik Głosu . 5 (2): 98–105. doi : 10.1016/S0892-1997(05)80173-0 . Źródło 2020-12-16 .

[6] Chowdhury, Kanishka; Saha, Somnath; Saha, Vedula Padmini; Kumpel, Sudipta; Chatterjee, Indranil (2013-03-23). „Analiza głosu przed i po operacji po tyroplastyce medializacyjnej w przypadkach jednostronnego porażenia fałdów głosowych” . Indian Journal of Otolaryngology and Head & Neck Surgery . 65 (4): 354–357. doi : 10.1007/s12070-013-0649-3 . ISSN 2231-3796 . PMC 3851511 . PMID 24427598 .

[7] Maher, Robert C. (2018). Zasady kryminalistycznej analizy dźwięku . Nowoczesna Akustyka i Przetwarzanie Sygnałów. Cham: Springer International Publishing. s. 1–2. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .

[8] Solan, Lawrence M.; Tiersma, Peter M. (2004). Mówiąc o zbrodni . Wydawnictwo Uniwersytetu Chicagowskiego. doi : 10.7208/chicago/9780226767871.001.0001 . ISBN 978-0-226-76793-2 .

[:0-9] Maher ^. , Robert C. (2018) Zasady kryminalistycznej analizy dźwięku . Nowoczesna Akustyka i Przetwarzanie Sygnałów. Cham: Springer International Publishing. s. 48–49. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .