CereProc

CereProc
Deweloperzy CereProc Ltd., Wielka Brytania
Pierwsze wydanie 2005 ; 18 lat temu ( 2005 )
Wersja stabilna
lipiec 2013 ; 9 lat temu ( 2013-07 )
Napisane w C/Python
System operacyjny Międzyplatformowe
Dostępne w Angielski, niemiecki, francuski, hiszpański, włoski, holenderski, kataloński, rumuński, japoński, portugalski, szkocki gaelicki, szwedzki, polski, irlandzki, duński, norweski, mandaryński, rosyjski, litewski
Typ Tekst na mowę
Licencja Handlowy
Strona internetowa www.cereproc.com _ _

CereProc ( / z s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) to firma zajmująca się syntezą mowy siedzibą w Edynburgu w Szkocji, założona w 2005 roku. Firma specjalizuje się w tworzeniu naturalnie i ekspresyjnie brzmiących tekstów na głosy mowy, głosy syntezowane z akcentami regionalnymi oraz w klonowaniu głosów .

Technologia budowania głosu

CereProc tworzy głosy przy użyciu dwóch różnych technologii budowania głosu: syntezy wyboru jednostek i modelowania parametrycznego.

Głosy wyboru jednostek CereProc są zbudowane z dużych baz danych nagranej mowy. Podczas tworzenia bazy danych każda zarejestrowana wypowiedź jest dzielona na niektóre lub wszystkie z poniższych: pojedyncze głoski , sylaby , morfemy , słowa , frazy i zdania . Podział na segmenty odbywa się za pomocą specjalnie zmodyfikowanego rozpoznawania mowy . Indeks jednostek w bazie danych mowy jest następnie tworzony na podstawie segmentacji i parametrów akustycznych, takich jak częstotliwość podstawowa ( wysokość ), czas trwania, pozycja w sylabie i sąsiednie głoski . W czasie wykonywania pożądana wypowiedź docelowa jest tworzona przez określenie najlepszego łańcucha kandydujących jednostek z bazy danych (wybór jednostek). Wybór jednostek zapewnia największą naturalność, ponieważ stosuje cyfrowe przetwarzanie sygnału (DSP) do nagranej mowy tylko w punktach konkatenacji. DSP często sprawia, że ​​nagrany dźwięk mowy jest mniej naturalny.

Głosy parametryczne CereProc wytwarzają syntezę mowy w oparciu o metodologie modelowania statystycznego. W tym systemie widmo częstotliwości ( trakt głosowy ), częstotliwość podstawowa (źródło głosu) i czas trwania ( prozodia ) mowy są modelowane jednocześnie. Fale mowy są generowane z tych parametrów za pomocą wokodera . Co najważniejsze, głosy te można zbudować ze znacznie mniejszej ilości nagranej mowy niż głosy z wyborem jednostek i zajmują znacznie mniej miejsca po zainstalowaniu, z tego powodu są używane do prywatnego klonowania głosu.

Głosy i języki

CereProc ma 58 ogólnie dostępnych głosów mówiących w 23 językach z różnymi regionalnymi akcentami:

  • Amerykański angielski: Isabella, Katherine, Hannah, Megan, Adam, Nathan, Andy (głos dziecka), Jordan (głos dziecka), Carolyn
  • Southern English: Sarah, William, Jack, Lauren, Giles, Amy, Lily (głos dziecka)
  • Północny angielski: Jess
  • Szkocki angielski: Heather, Kirsty, Stuart, Andrew (głos dziecka), Mairi (głos dziecka)
  • Glasgow angielski: Dodo
  • Lancashire Angielski: Claire
  • Irlandzki angielski: Caitlin
  • West Midlands angielski: Sue
  • Specjalne głosy FX: Demon, Ghost, Goblin, Pixie, Robot
  • Francuski metropolita: Suzanne, Laurent
  • Kanadyjski francuski: Florence
  • kataloński: Rita
  • Hiszpański kastylijski: Sara
  • Meksykański hiszpański: Ana
  • Włoski: Laura, Dario, Francesco (głos dziecka), Nicoletta (głos dziecka)
  • Irlandzki: Peig
  • Holenderski: Ada
  • Standardowy niemiecki: Gudrun, Alex
  • Austriacki niemiecki: Leopold
  • Europejski portugalski: Lúcia
  • brazylijski portugalski: Gabriel
  • Japoński: Yuki
  • Szkocki gaelicki: Ceitidh
  • Szwedzki: Ylva
  • Polski: Pol
  • Rumuński: Daria
  • Angielski z francuskim akcentem: Nicole
  • Rosyjski: Avrora
  • mandaryński: Mailin
  • Duński: Marie
  • Norweski (bokmål): Clara
  • Norweski (Nynorsk): Hulda
  • Litewski: Mantas, Egle

Ponadto firma opracowała szereg głosów celebrytów, które nie są ogólnie dostępne publicznie. Należą do nich George W. Bush , Barack Obama i Arnold Schwarzenegger .

Klonowanie głosu

W 2009 roku krytyk filmowy Roger Ebert zatrudnił CereProc do stworzenia syntetycznej wersji jego głosu. Ebert stracił mowę po operacji raka tarczycy . CereProc wydobywał taśmy i komentarze DVD z głosem Eberta, aby stworzyć głos zamiany tekstu na mowę, który brzmiał bardziej jak jego własny. Roger Ebert użył tego głosu w swoim występie 2 marca 2010 w The Oprah Winfrey Show .

CereProc sklonował głos gracza NFL Steve'a Gleasona po zdiagnozowaniu u niego MND . Gleason pojawił się w Microsoft Super Bowl XLVIII , wychwalając potęgę technologii, używając swojego syntetycznego głosu do narracji .

Technologia klonowania głosu CereProc jest obecnie używana w Wielkiej Brytanii przez osoby z MND do tworzenia głosów syntezy, zanim stracą moc mowy. Proces ten został przedstawiony w filmie dokumentalnym BBC Radio 4 Giving the Critic Back His Voice , wyemitowanym w sierpniu 2011 roku.

Zgodność systemu

Głosy CereProc mogą być wdrażane w różnych systemach operacyjnych i na różnych typach urządzeń. Głosy pulpitu CereProc są kompatybilne z systemami Microsoft Windows i Apple Mac OS X. Instalują się jako głosy systemowe i mogą być używane przez inne aplikacje obsługujące mowę. System klient/serwer firmy CereProc cServer, skierowany głównie na korporacyjny rynek IVR, może działać w systemach Windows i Linux . Głosy CereProc Mobile można wdrażać na systemach Android i Apple iOS . Zestaw SDK jest dostępny dla systemów Android, Linux, MacOS, iOS i Windows. Zestaw SDK ma powiązania dla języków C/C++, C#, Java i Python.

Zobacz też

Linki zewnętrzne