CereProc
Deweloperzy | CereProc Ltd., Wielka Brytania |
---|---|
Pierwsze wydanie | 2005 |
Wersja stabilna | lipiec 2013
|
Napisane w | C/Python |
System operacyjny | Międzyplatformowe |
Dostępne w | Angielski, niemiecki, francuski, hiszpański, włoski, holenderski, kataloński, rumuński, japoński, portugalski, szkocki gaelicki, szwedzki, polski, irlandzki, duński, norweski, mandaryński, rosyjski, litewski |
Typ | Tekst na mowę |
Licencja | Handlowy |
Strona internetowa |
CereProc ( / z s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) to firma zajmująca się syntezą mowy siedzibą w Edynburgu w Szkocji, założona w 2005 roku. Firma specjalizuje się w tworzeniu naturalnie i ekspresyjnie brzmiących tekstów na głosy mowy, głosy syntezowane z akcentami regionalnymi oraz w klonowaniu głosów .
Technologia budowania głosu
CereProc tworzy głosy przy użyciu dwóch różnych technologii budowania głosu: syntezy wyboru jednostek i modelowania parametrycznego.
Głosy wyboru jednostek CereProc są zbudowane z dużych baz danych nagranej mowy. Podczas tworzenia bazy danych każda zarejestrowana wypowiedź jest dzielona na niektóre lub wszystkie z poniższych: pojedyncze głoski , sylaby , morfemy , słowa , frazy i zdania . Podział na segmenty odbywa się za pomocą specjalnie zmodyfikowanego rozpoznawania mowy . Indeks jednostek w bazie danych mowy jest następnie tworzony na podstawie segmentacji i parametrów akustycznych, takich jak częstotliwość podstawowa ( wysokość ), czas trwania, pozycja w sylabie i sąsiednie głoski . W czasie wykonywania pożądana wypowiedź docelowa jest tworzona przez określenie najlepszego łańcucha kandydujących jednostek z bazy danych (wybór jednostek). Wybór jednostek zapewnia największą naturalność, ponieważ stosuje cyfrowe przetwarzanie sygnału (DSP) do nagranej mowy tylko w punktach konkatenacji. DSP często sprawia, że nagrany dźwięk mowy jest mniej naturalny.
Głosy parametryczne CereProc wytwarzają syntezę mowy w oparciu o metodologie modelowania statystycznego. W tym systemie widmo częstotliwości ( trakt głosowy ), częstotliwość podstawowa (źródło głosu) i czas trwania ( prozodia ) mowy są modelowane jednocześnie. Fale mowy są generowane z tych parametrów za pomocą wokodera . Co najważniejsze, głosy te można zbudować ze znacznie mniejszej ilości nagranej mowy niż głosy z wyborem jednostek i zajmują znacznie mniej miejsca po zainstalowaniu, z tego powodu są używane do prywatnego klonowania głosu.
Głosy i języki
CereProc ma 58 ogólnie dostępnych głosów mówiących w 23 językach z różnymi regionalnymi akcentami:
- Amerykański angielski: Isabella, Katherine, Hannah, Megan, Adam, Nathan, Andy (głos dziecka), Jordan (głos dziecka), Carolyn
- Southern English: Sarah, William, Jack, Lauren, Giles, Amy, Lily (głos dziecka)
- Północny angielski: Jess
- Szkocki angielski: Heather, Kirsty, Stuart, Andrew (głos dziecka), Mairi (głos dziecka)
- Glasgow angielski: Dodo
- Lancashire Angielski: Claire
- Irlandzki angielski: Caitlin
- West Midlands angielski: Sue
- Specjalne głosy FX: Demon, Ghost, Goblin, Pixie, Robot
- Francuski metropolita: Suzanne, Laurent
- Kanadyjski francuski: Florence
- kataloński: Rita
- Hiszpański kastylijski: Sara
- Meksykański hiszpański: Ana
- Włoski: Laura, Dario, Francesco (głos dziecka), Nicoletta (głos dziecka)
- Irlandzki: Peig
- Holenderski: Ada
- Standardowy niemiecki: Gudrun, Alex
- Austriacki niemiecki: Leopold
- Europejski portugalski: Lúcia
- brazylijski portugalski: Gabriel
- Japoński: Yuki
- Szkocki gaelicki: Ceitidh
- Szwedzki: Ylva
- Polski: Pol
- Rumuński: Daria
- Angielski z francuskim akcentem: Nicole
- Rosyjski: Avrora
- mandaryński: Mailin
- Duński: Marie
- Norweski (bokmål): Clara
- Norweski (Nynorsk): Hulda
- Litewski: Mantas, Egle
Ponadto firma opracowała szereg głosów celebrytów, które nie są ogólnie dostępne publicznie. Należą do nich George W. Bush , Barack Obama i Arnold Schwarzenegger .
Klonowanie głosu
W 2009 roku krytyk filmowy Roger Ebert zatrudnił CereProc do stworzenia syntetycznej wersji jego głosu. Ebert stracił mowę po operacji raka tarczycy . CereProc wydobywał taśmy i komentarze DVD z głosem Eberta, aby stworzyć głos zamiany tekstu na mowę, który brzmiał bardziej jak jego własny. Roger Ebert użył tego głosu w swoim występie 2 marca 2010 w The Oprah Winfrey Show .
CereProc sklonował głos gracza NFL Steve'a Gleasona po zdiagnozowaniu u niego MND . Gleason pojawił się w Microsoft Super Bowl XLVIII , wychwalając potęgę technologii, używając swojego syntetycznego głosu do narracji .
Technologia klonowania głosu CereProc jest obecnie używana w Wielkiej Brytanii przez osoby z MND do tworzenia głosów syntezy, zanim stracą moc mowy. Proces ten został przedstawiony w filmie dokumentalnym BBC Radio 4 Giving the Critic Back His Voice , wyemitowanym w sierpniu 2011 roku.
Zgodność systemu
Głosy CereProc mogą być wdrażane w różnych systemach operacyjnych i na różnych typach urządzeń. Głosy pulpitu CereProc są kompatybilne z systemami Microsoft Windows i Apple Mac OS X. Instalują się jako głosy systemowe i mogą być używane przez inne aplikacje obsługujące mowę. System klient/serwer firmy CereProc cServer, skierowany głównie na korporacyjny rynek IVR, może działać w systemach Windows i Linux . Głosy CereProc Mobile można wdrażać na systemach Android i Apple iOS . Zestaw SDK jest dostępny dla systemów Android, Linux, MacOS, iOS i Windows. Zestaw SDK ma powiązania dla języków C/C++, C#, Java i Python.