Gnusmowa

Gnusmowa
Deweloperzy	Badanie dźwięku Trillium
Pierwsze wydanie	2002 ; 21 lat temu
Wersja stabilna	0.9 / 14 października 2015 ; 7 lat temu
Magazyn	savannah .gnu .org /git /?group=gnuspeech ;
Platforma	Międzyplatformowe
Typ	Tekst na mowę
Licencja	Powszechna Licencja Publiczna GNU
Strona internetowa	www .gnu .org /software /gnuspeech /

Gnuspeech to rozszerzalny pakiet oprogramowania komputerowego do zamiany tekstu na mowę , który wytwarza sztuczną mowę w oparciu o artykulacyjną syntezę mowy w czasie rzeczywistym według reguł. Oznacza to, że konwertuje ciągi tekstowe na opisy fonetyczne, wspomagane przez słownik wymowy, zasady zamiany liter na dźwięki oraz modele rytmu i intonacji; przetwarza opisy fonetyczne na parametry niskopoziomowego artykulacyjnego syntezatora mowy ; wykorzystuje je do napędzania artykulacyjnego modelu ludzkiego układu głosowego wytwarzanie sygnału wyjściowego odpowiedniego dla normalnych urządzeń wyjściowych dźwięku używanych przez różne komputerowe systemy operacyjne ; i robi to w takim samym lub szybszym tempie, niż mowa jest wypowiadana w przypadku mowy dorosłej.

Projekt

bezpośrednio i dość dokładnie modeluje zachowanie prawdziwego przewodu głosowego , w przeciwieństwie do syntezatorów formantowych, które pośrednio modelują widmo mowy. Problem sterowania został rozwiązany za pomocą modelu regionu dystynktywnego René Carré, który wiąże zmiany w promieniach ośmiu podłużnych odcinków traktu głosowego z odpowiednimi zmianami w trzech formantach częstotliwości w widmie mowy, które przekazują większość informacji mowy . Regiony są z kolei oparte na pracy Sztokholmskiego Laboratorium Technologii Mowy Królewskiego Instytutu Technologii ( KTH ) na temat „analizy wrażliwości formantowej” – czyli jak na częstotliwości formantowe wpływają niewielkie zmiany promienia traktu głosowego w różnych miejscach na jego długości.

Historia

Gnuspeech był pierwotnie komercyjnym oprogramowaniem wyprodukowanym przez nieistniejący już Trillium Sound Research dla komputera NeXT jako różne poziomy zestawu „TextToSpeech”. Trillium Sound Research była zajmującą się transferem technologii , utworzoną na Uniwersytecie Calgary w prowincji Alberta w Kanadzie w oparciu o wieloletnie badania na wydziale informatyki dotyczące interakcji komputer-człowiek za pomocą mowy, gdzie dokumenty i podręczniki dotyczące systemu są utrzymany. Pierwotna wersja z 1992 roku wykorzystywała syntezator mowy oparty na formantach. Kiedy firma NeXT zaprzestała produkcji sprzętu, oprogramowanie syntezatora zostało całkowicie przepisane, a także przeniesione do NSFIP (NextStep For Intel Processors) przy użyciu podejścia falowodowego do modelowania lamp akustycznych w oparciu o badania w Center for Computer Research in Music and Acoustics ( CCRMA ) na Uniwersytecie Stanforda, zwłaszcza Music Kit. Podejście do syntezy zostało wyjaśnione bardziej szczegółowo w artykule przedstawionym American Voice I/O Society w 1995 roku. System wykorzystywał wbudowany cyfrowy procesor sygnałowy (DSP) 56001 w komputerze NeXT oraz dodatkową kartę Turtle Beach z tym samym DSP w wersji NSFIP do obsługi falowodu (znany również jako model lampowy). Ograniczenia prędkości oznaczały, że najkrótsza długość toru głosowego, jaką można było wykorzystać do mowy w czasie rzeczywistym (tj. generowanej z taką samą lub większą szybkością niż „mówiona”) wynosiła około 15 centymetrów, ponieważ częstotliwość próbkowania obliczeń falowodu wzrasta ze zmniejszającą się długością traktu głosowego. Szybsze procesory stopniowo usuwają to ograniczenie, co jest ważnym postępem w produkcji mowy dzieci w czasie rzeczywistym.

Ponieważ NeXTSTEP został wycofany, a komputery NeXT są rzadkością, jedną z opcji wykonania oryginalnego kodu jest użycie maszyn wirtualnych . Na przykład poprzedni emulator może emulować DSP w komputerach NeXT , z którego może korzystać oprogramowanie Trillium.

MONET (Gnuspeech) w NeXTSTEP 3.3 działającym wewnątrz poprzedniego pliku .

Trillium zaprzestało handlu pod koniec lat 90., a projekt Gnuspeech został po raz pierwszy wprowadzony do repozytorium GNU Savannah na warunkach Powszechnej Licencji Publicznej GNU w 2002 roku jako oficjalne oprogramowanie GNU .

Ze względu na swoją bezpłatną i otwartą licencję, która umożliwia dostosowanie kodu, Gnuspeech został wykorzystany w badaniach akademickich.

Przykład syntezy

Chaos zsyntetyzowany przez Trillium TTS (Gnuspeech) przy użyciu modelu układu głosowego DSP.

Masz problemy z odtwarzaniem tego pliku? Zobacz pomoc dotyczącą multimediów .

Linki zewnętrzne