CereProc

CereProc
Deweloperzy	CereProc Ltd., Wielka Brytania
Pierwsze wydanie	2005 ; 18 lat temu
Wersja stabilna	lipiec 2013 ; 9 lat temu
Napisane w	C/Python
System operacyjny	Międzyplatformowe
Dostępne w	Angielski, niemiecki, francuski, hiszpański, włoski, holenderski, kataloński, rumuński, japoński, portugalski, szkocki gaelicki, szwedzki, polski, irlandzki, duński, norweski, mandaryński, rosyjski, litewski
Typ	Tekst na mowę
Licencja	Handlowy
Strona internetowa	www.cereproc.com _ _

CereProc ( / z s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) to firma zajmująca się syntezą mowy siedzibą w Edynburgu w Szkocji, założona w 2005 roku. Firma specjalizuje się w tworzeniu naturalnie i ekspresyjnie brzmiących tekstów na głosy mowy, głosy syntezowane z akcentami regionalnymi oraz w klonowaniu głosów .

Technologia budowania głosu

CereProc tworzy głosy przy użyciu dwóch różnych technologii budowania głosu: syntezy wyboru jednostek i modelowania parametrycznego.

Głosy wyboru jednostek CereProc są zbudowane z dużych baz danych nagranej mowy. Podczas tworzenia bazy danych każda zarejestrowana wypowiedź jest dzielona na niektóre lub wszystkie z poniższych: pojedyncze głoski , sylaby , morfemy , słowa , frazy i zdania . Podział na segmenty odbywa się za pomocą specjalnie zmodyfikowanego rozpoznawania mowy . Indeks jednostek w bazie danych mowy jest następnie tworzony na podstawie segmentacji i parametrów akustycznych, takich jak częstotliwość podstawowa ( wysokość ), czas trwania, pozycja w sylabie i sąsiednie głoski . W czasie wykonywania pożądana wypowiedź docelowa jest tworzona przez określenie najlepszego łańcucha kandydujących jednostek z bazy danych (wybór jednostek). Wybór jednostek zapewnia największą naturalność, ponieważ stosuje cyfrowe przetwarzanie sygnału (DSP) do nagranej mowy tylko w punktach konkatenacji. DSP często sprawia, że nagrany dźwięk mowy jest mniej naturalny.

Głosy parametryczne CereProc wytwarzają syntezę mowy w oparciu o metodologie modelowania statystycznego. W tym systemie widmo częstotliwości ( trakt głosowy ), częstotliwość podstawowa (źródło głosu) i czas trwania ( prozodia ) mowy są modelowane jednocześnie. Fale mowy są generowane z tych parametrów za pomocą wokodera . Co najważniejsze, głosy te można zbudować ze znacznie mniejszej ilości nagranej mowy niż głosy z wyborem jednostek i zajmują znacznie mniej miejsca po zainstalowaniu, z tego powodu są używane do prywatnego klonowania głosu.

Głosy i języki

CereProc ma 58 ogólnie dostępnych głosów mówiących w 23 językach z różnymi regionalnymi akcentami:

Amerykański angielski: Isabella, Katherine, Hannah, Megan, Adam, Nathan, Andy (głos dziecka), Jordan (głos dziecka), Carolyn
Southern English: Sarah, William, Jack, Lauren, Giles, Amy, Lily (głos dziecka)
Północny angielski: Jess
Szkocki angielski: Heather, Kirsty, Stuart, Andrew (głos dziecka), Mairi (głos dziecka)
Glasgow angielski: Dodo
Lancashire Angielski: Claire
Irlandzki angielski: Caitlin
West Midlands angielski: Sue
Specjalne głosy FX: Demon, Ghost, Goblin, Pixie, Robot
Francuski metropolita: Suzanne, Laurent
Kanadyjski francuski: Florence
kataloński: Rita
Hiszpański kastylijski: Sara
Meksykański hiszpański: Ana
Włoski: Laura, Dario, Francesco (głos dziecka), Nicoletta (głos dziecka)
Irlandzki: Peig
Holenderski: Ada
Standardowy niemiecki: Gudrun, Alex
Austriacki niemiecki: Leopold
Europejski portugalski: Lúcia
brazylijski portugalski: Gabriel
Japoński: Yuki
Szkocki gaelicki: Ceitidh
Szwedzki: Ylva
Polski: Pol
Rumuński: Daria
Angielski z francuskim akcentem: Nicole
Rosyjski: Avrora
mandaryński: Mailin
Duński: Marie
Norweski (bokmål): Clara
Norweski (Nynorsk): Hulda
Litewski: Mantas, Egle

Ponadto firma opracowała szereg głosów celebrytów, które nie są ogólnie dostępne publicznie. Należą do nich George W. Bush , Barack Obama i Arnold Schwarzenegger .

Klonowanie głosu

W 2009 roku krytyk filmowy Roger Ebert zatrudnił CereProc do stworzenia syntetycznej wersji jego głosu. Ebert stracił mowę po operacji raka tarczycy . CereProc wydobywał taśmy i komentarze DVD z głosem Eberta, aby stworzyć głos zamiany tekstu na mowę, który brzmiał bardziej jak jego własny. Roger Ebert użył tego głosu w swoim występie 2 marca 2010 w The Oprah Winfrey Show .

CereProc sklonował głos gracza NFL Steve'a Gleasona po zdiagnozowaniu u niego MND . Gleason pojawił się w Microsoft Super Bowl XLVIII , wychwalając potęgę technologii, używając swojego syntetycznego głosu do narracji .

Technologia klonowania głosu CereProc jest obecnie używana w Wielkiej Brytanii przez osoby z MND do tworzenia głosów syntezy, zanim stracą moc mowy. Proces ten został przedstawiony w filmie dokumentalnym BBC Radio 4 Giving the Critic Back His Voice , wyemitowanym w sierpniu 2011 roku.

Zgodność systemu

Głosy CereProc mogą być wdrażane w różnych systemach operacyjnych i na różnych typach urządzeń. Głosy pulpitu CereProc są kompatybilne z systemami Microsoft Windows i Apple Mac OS X. Instalują się jako głosy systemowe i mogą być używane przez inne aplikacje obsługujące mowę. System klient/serwer firmy CereProc cServer, skierowany głównie na korporacyjny rynek IVR, może działać w systemach Windows i Linux . Głosy CereProc Mobile można wdrażać na systemach Android i Apple iOS . Zestaw SDK jest dostępny dla systemów Android, Linux, MacOS, iOS i Windows. Zestaw SDK ma powiązania dla języków C/C++, C#, Java i Python.

Zobacz też

Linki zewnętrzne