Mowa skompresowana czasowo

Mowa z kompresją czasową odnosi się do nagrania dźwiękowego tekstu werbalnego, w którym tekst jest prezentowany w znacznie krótszym przedziale czasu niż w przypadku normalnej mowy w czasie rzeczywistym . Podstawowym celem jest, aby nagrana mowa zawierała więcej słów w określonym czasie, a jednocześnie była zrozumiała. Na przykład: akapit, którego przeczytanie zwykle zajęłoby 20 sekund, może zamiast tego zostać przedstawiony w 15 sekund, co oznaczałoby kompresję czasu o 25% (5 sekund z 20).

Terminu „mowa skompresowana w czasie” nie należy mylić z „ kompresją mowy ”, która kontroluje zakres głośności dźwięku, ale nie zmienia jego obwiedni czasowej.

Metody

Podczas gdy niektóre talenty głosowe są w stanie mówić z szybkością znacznie przekraczającą ogólne normy, termin „mowa skompresowana w czasie” najczęściej odnosi się do przykładów, w których skrócenie czasu zostało osiągnięte poprzez jakąś formę elektronicznego przetwarzania nagranej mowy.

Ogólnie rzecz biorąc, nagrana mowa może być elektronicznie kompresowana w czasie poprzez: zwiększenie jej szybkości (kompresja liniowa); usuwanie wyciszeń (edycja wybiórcza); połączenie tych dwóch (kompresja nieliniowa). Szybkość nagrania można zwiększyć, co spowoduje, że materiał będzie prezentowany w szybszym tempie (a co za tym idzie w krótszym czasie), ale ma to niepożądany efekt uboczny w postaci zwiększenia częstotliwości całego fragmentu, podniesienia wysokość głosu, co może zmniejszyć zrozumiałość.

Zwykle występują przerwy między słowami i zdaniami, a nawet małe przerwy w obrębie niektórych słów, z których obie można zmniejszyć lub usunąć („wyedytować”), co również zmniejszy ilość czasu zajmowanego przez pełne nagranie mowy. Jednak może to również skutkować usunięciem werbalnej „interpunkcji” z mowy, powodując nienaturalne występowanie słów i zdań, ponownie zmniejszając zrozumiałość.

Samogłoski są zwykle utrzymywane przez co najmniej 20 milisekund, przez wiele cykli podstawowej tonacji. Systemy DSP mogą wykrywać początek i koniec każdego cyklu, a następnie pomijać niektóre części tych cykli, powodując prezentację materiału w szybszym tempie, bez zmiany wysokości tonu, przy zachowaniu „normalnego” tonu głosu.

Obecnie preferowana metoda kompresji czasu nazywana jest „kompresją nieliniową”, która wykorzystuje kombinację selektywnego usuwania ciszy; przyspieszenie mowy, aby skrócone cisze brzmiały normalnie proporcjonalnie do tekstu; i wreszcie zastosowanie różnych algorytmów danych, aby przywrócić mowę do właściwej tonacji. Daje to bardziej akceptowalny wynik niż którakolwiek z dwóch wcześniejszych technik; jednakże, jeśli jest nieskrępowany, usunięcie ciszy i zwiększenie szybkości może sprawić, że wybrany dźwięk mowy będzie bardziej natarczywy, być może aż do nieprzyjemności.

Aplikacje

Reklama

Mowa skompresowana czasowo jest często wykorzystywana w reklamach telewizyjnych i radiowych. Zaletą mowy poddanej kompresji czasowej jest to, że tę samą liczbę słów można skompresować w krótszym czasie, co zmniejsza koszty reklamy i/lub umożliwia zawarcie większej ilości informacji w danej reklamie radiowej lub telewizyjnej. Jest to zwykle najbardziej zauważalne w gęstych od informacji zastrzeżeniach i zastrzeżeniach prezentowanych (zwykle zgodnie z wymogami prawnymi) na końcu reklam – dźwiękowy odpowiednik „drobnego druku” " w drukowanej umowie. Ta praktyka nie jest jednak nowa: zanim wynaleziono metody elektroniczne, rzecznicy, którzy potrafili mówić niezwykle szybko i nadal być rozumiani, byli szeroko wykorzystywani jako podkłady głosowe do reklam radiowych i telewizyjnych, a zwłaszcza do nagrywania takich zastrzeżeń.

Edukacja

Mowa skompresowana czasowo ma zastosowania edukacyjne, takie jak zwiększenie gęstości informacji w szkoleniach oraz jako pomoc w nauce. Szereg badań wykazało, że przeciętny człowiek jest w stanie stosunkowo łatwo zrozumieć mowę wygłaszaną z szybkością wyższą niż normalnie, przy czym szczyt występuje przy około 25% kompresji (czyli 25% szybciej niż normalnie); ta funkcja została zademonstrowana w kilku językach. Mowa konwersacyjna (w języku angielskim) odbywa się z prędkością około 150 słów na minutę (słów na minutę), ale przeciętny człowiek jest w stanie bez większych trudności zrozumieć mowę prezentowaną w tempie do 200-250 słów na minutę. Osoby niewidome i słabowidzące uzyskały podobny poziom zrozumienia przy jeszcze wyższych wskaźnikach, do 300-350 WPM. Stwierdzono, że osoby niewidome często używają mowy skompresowanej czasowo, na przykład podczas przeglądania nagranych wykładów z zajęć w szkole średniej i na studiach lub szkoleń zawodowych. Stwierdzono, że wskaźniki rozumienia u starszych osób niewidomych są równie dobre, aw niektórych przypadkach lepsze niż u młodszych widzących osób.

Inne badania wykazały, że zdolność rozumienia mowy o dużym stopniu kompresji czasowej ma tendencję do zmniejszania się wraz z wiekiem, a także zmniejsza się, gdy język mowy poddanej kompresji czasowej nie jest językiem ojczystym słuchacza. Osoby niebędące rodzimymi użytkownikami języka mogą jednak poprawić swój poziom rozumienia mowy skompresowanej czasowo dzięki kilkudniowym szkoleniom.

Poczta głosowa

poczty głosowej wykorzystywały mowę skompresowaną w czasie już od lat 70. XX wieku. W tej aplikacji technologia umożliwia szybkie przeglądanie wiadomości w systemach o dużym natężeniu ruchu przez stosunkowo niewielką liczbę osób.

Strumieniowe przesyłanie multimediów

Mowa skompresowana w czasie została zbadana jako jeden z wielu powiązanych ze sobą czynników, którymi można manipulować w celu zwiększenia wydajności strumieniowego przesyłania prezentacji multimedialnych, poprzez znaczne skrócenie czasu opóźnienia związanego z przesyłaniem dużych, zakodowanych cyfrowo plików multimedialnych.

Dalsza lektura

Algorytmy kompresji czasu

M. Covell, M. Withgott i M. Slaney, „Mach1: Niejednolita modyfikacja mowy w skali czasu”, w Proc. ICASSP, tom. 1. Seattle, USA: IEEE, maj 1998, s. 349–352.
M. Demol, W. Verhelst, K. Struyve i P. Verhoeve, „Efficient non-uniform time-scaling of speech with WSOLA”, w: Proceedings of SPECOM, Petras, Grecja, październik 2005, s. 163–166.

Zobacz też

Modyfikacja wysokości dźwięku w skali czasowej
John Moschitta Jr. , rzecznik potrafiący bardzo szybko mówić