Loquendo

Loquendo
Typ	Prywatny
Przemysł	Aplikacje zwiększające produktywność
Założony	; Lata siedemdziesiąte jako grupa badawcza w ramach CSELT 2001 (jako niezależna firma)
Siedziba	Turyn , Włochy
Kluczowi ludzie	Prezes i dyrektor generalny: Davide Franco
Produkty	synteza mowy , rozpoznawanie mowy , weryfikacja mówcy , doradztwo
Przychód	15 mln EUR (2010)
Dochód netto	1,5 mln EUR (2010)
Liczba pracowników	103 (2011)
Strona internetowa	loquendo .com

Loquendo to międzynarodowa korporacja zajmująca się oprogramowaniem komputerowym z siedzibą w Turynie we Włoszech, która zapewnia rozpoznawanie mowy, syntezę mowy, weryfikację mówców i aplikacje do identyfikacji. Loquendo, które zostało założone w 2001 roku w ramach Telecom Italia Lab (dawniej CSELT ), miało również biura w Wielkiej Brytanii, Hiszpanii, Niemczech, Francji i Stanach Zjednoczonych.

Aktualne produkty biznesowe można znaleźć w przenośnych i samochodowych urządzeniach nawigacyjnych , urządzeniach wspomagających dla osób o różnej sprawności, smartfonach , czytnikach e-booków , mówiących bankomatach , grach komputerowych , urządzeniach gospodarstwa domowego sterowanych głosem i innych. Systemy syntezy głosu i rozpoznawania mowy są wykorzystywane w nowej aplikacji e-zdrowia jako część wirtualnego asystenta hiszpańskiego rządu Junta de Andalucía Government Health Services.

Produkty Loquendo były laureatami kilku nagród, w tym bycia liderem Speech Technologies Speech Engine w 2007, 2008 i 2009 roku. Został oceniony jako „lider rynku” przez Speech Technologies w 2009 i 2010 roku.

W dniu 30 września 2011 r. Firma Nuance ogłosiła przejęcie Loquendo.

Historia

Loquendo było pierwotnie grupą badawczą utworzoną w połowie lat siedemdziesiątych przez menedżerów IRI - STET w laboratoriach CSELT w Turynie , zanim stała się samodzielną firmą w 2001 roku.

Synteza mowy

Płyta 45 obrotów na minutę z „Frère Jacques” śpiewanym przez MUSA w 1978 roku

Opierając się na zaleceniach Uniwersytetu w Padwie , stosując technikę tak zwanych difonów (połączenie spółgłoski i samogłoski, która liczy łącznie 150 dla Włocha), grupa technologii głosowych kierowana przez Giulio Modena stworzyła pierwszą mowę syntezator o wysokiej zrozumiałości, zdolny mówić (i śpiewać) po włosku w 1975 roku. Nazywał się MUSA (Multichannel Speaking Automaton) , który pokazał, co było możliwe dzięki ówczesnej technologii. Wyniki osiągnięte w tamtych latach zostały skondensowane na płycie audio w 45 rpm wydanej w 1978 roku, rozprowadzanej w tysiącach egzemplarzy za pośrednictwem środków masowego przekazu. Auto track, po krótkiej autoprezentacji systemu, zawierał zabawną włoską wersję piosenki Frère Jacques , wykonaną polifonicznie ( a cappella ) z większą ilością śpiewających głosów (MUSA mogła obsługiwać równolegle do 8 kanałów syntezy).

Ewolucja tego prototypu, wraz ze wzrostem liczby difonów (około 1000), udoskonaleniem narzędzi do analizy języka i ulepszonym zarządzaniem kształtem fali, doprowadziła również do znacznej poprawy głosu syntetycznego. Doprowadziło to do powstania pierwszego układu scalonego „syntezatora mowy” opracowanego wewnętrznie w CSELT , który został wyprodukowany przez firmę SGS (katalog jako urządzenie peryferyjne mikroprocesora Zilog 's Z80 (o kodzie M8950).

Później w latach dziewięćdziesiątych narodził się „ ELOQUENS ”, wieloplatformowy programowy syntezator mowy przeznaczony dla różnych systemów operacyjnych, w tym DOS , Windows , System 7 , Unix , OS/2 ) i tablic telefonicznych z bardzo dużą liczbą kanałów, takich jak te wykorzystywany przez włoskiego operatora telefonicznego do budowy usługi informacji o abonentach telefonii zwrotnej (służy do uzyskiwania tożsamości i adresu abonenta z jego numeru telefonu).

Pod koniec lat 90. synteza mowy przyjęła nowe podejście, zamiast przekazywania dyfonów wykorzystywałaby selekcję i łączenie jednostek akustycznych o zmiennej długości, co było możliwe dzięki zwiększonej mocy komputerów, a zwłaszcza rosnącej pojemności pamięci masowych systemy. W efekcie powstał „AKTOR” – „Głos brzmiący jak człowiek” – który zaczął mieć szerokie grono odbiorców ze względu na ilość usług telefonicznych i aplikacji tworzonych przez firmy powiązane z Loquendo.

W 2000 roku syntezator został wypuszczony z laboratoriów badawczych jako produkt komercyjny, zawierający szereg narzędzi edycyjnych do produkcji syntetycznego dźwięku wzbogaconego o emocje, a także jako biblioteka SW do użytku w różnych produktach, od małych przenośnych urządzeń takich jak telefony komórkowe, nawigatory i palmtopy, po wielokanałowe/wielojęzyczne serwery telefoniczne dla (pół)automatycznych call center.

Synteza mowy Loquendo stała się memem internetowym na YouTube , choć jest bardziej powszechna w filmach w języku hiszpańskim. Jest często używany w creepypastach i dubbingach parodii (często z wulgarnym językiem).

Rozpoznawanie mowy

Wkrótce po rozpoczęciu badań nad syntezą mowy rozpoczęli badania nad rozpoznawaniem mowy i na początku lat osiemdziesiątych stworzyli pierwszy prototyp, który rozpoznawał dziesięć cyfr i kilka prostych komend.

Zastosowanie ukrytych modeli Markowa w 1984 roku doprowadziło do opracowania rozpoznawania mowy, które mogło rozpoznawać połączone słowa i zdania, stworzonego we współpracy z ELSAG , inną firmą z grupy IRI - STET . Nawet we współpracy z ELSAG, w 1986 roku został zaprezentowany RIPAC (RIconoscimento PArlato Connesso) , wczesny mikroprocesor mający na celu rozpoznawanie połączonej mowy . Procesor ten miał poziomy integracji VLSI i składał się z 70 000 tranzystorów .

Konieczność stworzenia niezależnych aplikacji telefonicznych do rozpoznawania mowy doprowadziła do powstania baz mowy z nagranymi głosami setek różnych osób, a w 1987 r. procedura automatyczna została wykorzystana do stworzenia specjalnie spreparowanego serwera telefonicznego w laboratoriach CSELT.

Ten zaoszczędzony materiał umożliwił szkolenie modeli Markowa, a dzięki zastosowaniu wyrafinowanych algorytmów doprowadził do opracowania „AURIS”, pierwszego komercyjnego aparatu rozpoznającego, który mógł „obracać” różne urządzenia z cyfrowymi procesorami sygnałowymi (DSP ) .

W latach dziewięćdziesiątych rozpoczęła się duża ogólnoeuropejska współpraca i wraz z tuzinem innych firm i uniwersytetów w całej Europie zebrano bardzo dużą bazę danych mowy z głosami ponad 65 000 osób.

Materiał ten, w połączeniu z nowym, mieszanym podejściem modeli Hidden Markova i sieci neuronowych, doprowadził do powstania „FLEXUS”, pierwszego elastycznego rozpoznawania mowy, który umożliwił wielu różnym usługom telefonicznym korzystanie z automatycznego rozpoznawania mowy w interfejsach użytkownika.

Z połączenia „FLEXUS” i „ACTOR” w jeden system powstał „Dialogos”, pozwalający na tworzenie najnowocześniejszych usług telefonicznych.

Narodziny Loquendo jako firmy doprowadziły do rozwoju wielu języków i wydania narzędzia rozpoznającego w postaci oprogramowania bibliotecznego do tworzenia różnych aplikacji telefonicznych.

Wprowadzili także kilka systemów do pisania gramatyk skończonych stanów i systemów modeli języka naturalnego.

Kampanie rejestrujące bazy danych mowy nadal przenoszą się z Europy do krajów śródziemnomorskich, Ameryki Południowej, Środkowej i Północnej, aw końcu do krajów Dalekiego Wschodu. Łącznie zarejestrowano niezliczone godziny przemówień, kontaktując się z setkami tysięcy ludzi w wymienionych regionach. Nagrania zostały zebrane zarówno dla stacjonarnych sieci telefonicznych, jak iw poruszających się pojazdach dla telefonów komórkowych, a także przy użyciu wysokiej jakości mikrofonów w środowiskach domowych do zastosowań konsumenckich, takich jak gry wideo, urządzenia i ogólnie automatyka domowa.

Rozpoznawanie mówcy

Prototyp rozpoznawania niezależnego głośnika CSELT osadzony w telefonie komórkowym (projekt ARS) w latach dziewięćdziesiątych.

Działania badawcze w zakresie rozpoznawania mówców zostały zapoczątkowane na początku lat osiemdziesiątych. Później, w połowie 2000 roku, dostępne stały się bazy danych mowy dostosowane do tego zadania. We współpracy z Politecnico w Turynie rozpoczęli eksperymenty na dwóch różnych frontach: „identyfikacja” i „weryfikacja” mówiącego .

Powodzenie badań skłoniło również firmę do opracowania produktów specjalnie do tych zadań za pośrednictwem opisanych poniżej platform umożliwiających.

Kodowanie mowy

Działalność badawcza w zakresie kodowania mowy rozpoczęła się jeszcze przed badaniami nad rozpoznawaniem i syntezą mowy, mając na celu zbudowanie urządzeń takich jak KODEK i eliminator echa, aby w jak największym stopniu zwiększyć liczbę rozmów telefonicznych, które można przeprowadzić za pomocą jednego kabla (lub połączenie satelitarne) bez utraty zrozumiałości głosu.

Pod koniec lat siedemdziesiątych badania i eksperymenty doprowadziły do stworzenia algorytmów do kodowania sygnału mowy telefonicznej i ustanowienia europejskiego rozporządzenia CCITT znanego jako kodowanie A-law (8-bitowy logarytm kodowania prawa „A” dla sygnału audio w paśmie 8 kHz ograniczony). Standard ten został następnie wykorzystany w KODEKACH dla linii telefonicznych ISDN 64 kbit/s .

W kolejnych latach zbudowali mocniejsze kodeki (wykorzystywane centrale telefoniczne) oraz w ramach konsorcjum PAN-Europe GSM kodek do wykorzystania w telefonach komórkowych drugiej generacji.

Jednocześnie zbudowali KODEK do przesyłania wysokiej jakości sygnałów pomimo ograniczenia pasma kabli telefonicznych do 8 kHz, co było przydatne w zastosowaniach związanych z audio i wideokonferencjami.

Platformy umożliwiające

Pod koniec lat dziewięćdziesiątych rozwój Internetu w znanej dziś postaci (hipertekst rezydujący na różnych serwerach, które obejmują całą planetę w jednej wielkiej sieci) doprowadził do konieczności udostępnienia tych tekstów w formie głosowej przez telefon.

W tym samym czasie IVR – Interaktywna odpowiedź głosowa stawała się coraz bardziej popularna i wykorzystywała narzędzia sprzętowe i programowe do szybkiego tworzenia nowych aplikacji telefonicznych. Stało się oczywiste, że dotychczasowe modele rozwoju, które prowadziły do rozwoju złożonych systemów, takich jak automatyzacja biura numerów czy Automatyczne Stacje Informatyczne, były zbyt sztywne i nie pozwalały łatwo na tworzenie nowych aplikacji.

Uznano zatem, że istnieje potrzeba stworzenia platform dla automatycznych systemów telefonii głosowej, które byłyby zarówno skalowalne, jak i łatwe do zaprogramowania. W tym celu powołano specjalną grupę roboczą do opracowania przeglądarki głosowej , która zostanie zaprezentowana publiczności na SMAU 2000 pod nazwą „VoxNauta”. To był taki sukces, że Telecom Italia zdecydował się zamknąć swoje oryginalne laboratoria badawcze i stworzyć Loquendo 1 lutego 2001 roku.

Przez lata „VoxNauta” była dalej rozwijana w różnych skalowalnych formach: od małych serwerów do dużych systemów korporacyjnych z tysiącami linii i została zainstalowana w setkach firm na całym świecie.

Narodziny standardów pisania usług telefonicznych w celu połączenia serwera obsługującego technologie mowy z serwerami obsługującymi tablice telefoniczne popychają rozwój solo SW.

Pojawienie się standardów pisania usług telefonicznych ( VoiceXML ) i protokołów ( MRCP ) do łączenia serwerów obsługujących technologie mowy z serwerami obsługującymi tablice telefoniczne doprowadziło do powstania oprogramowania Speech Server, obsługującego syntezator mowy i rozpoznawanie mowy Silniki Loquendo

Te ciągłe badania i rozwój sprawiły, że Loquendo stało się jedną z najbardziej znanych marek w dziedzinie syntezy i rozpoznawania głosu.

Marka

Nazwę Loquendo wymyśliła żona założyciela firmy, Silvano Giorcelli, a logo stworzył dział graficzny Telecom Italia . Podczas wyświetlania jako animowany gif trzy zmarszczki nad literą „O” włączają się sekwencyjnie, dając wrażenie emisji dźwięku.

Marka nie była chroniona przez firmę, istnieją inne włoskie firmy, których nazwa bezpośrednio wywodzi się od Loquendo, co przyczyniło się do jej powszechnego stosowania, nawet kosztem konkurencyjnych marek.

Sprzedaż firmy

Przez lata krążyły pogłoski o sprzedaży Loquendo innym firmom.

Ostatnia miała miejsce latem 2011 r., kiedy ogłoszono, że dwie międzynarodowe firmy z siedzibą w USA, Nuance i Avaya , rozważają możliwość przejęcia.

Ponieważ Nuance był bezpośrednim konkurentem włoskiej firmy, pracownicy Loquendo obawiali się możliwego rozczłonkowania badań i rozwoju oraz zniknięcia z Włoch doskonałej marki z czterdziestoletnim doświadczeniem.

Zakup przez Avaya wydawał się bardziej pożądany, ponieważ jej działalność była komplementarna z działalnością prowadzoną przez Loquendo; Avaya w rzeczywistości nie posiadała żadnej technologii mowy i dlatego mogła być bardzo zainteresowana możliwością rozwoju we własnym zakresie, zamiast kupować je od firm zewnętrznych.

Doniesienia te z wielkim zainteresowaniem śledzili robotnicy, władze lokalne w Turynie i Piemoncie oraz całe międzynarodowe środowisko naukowe.

W dniu 13 sierpnia 2011 r. Telecom Italia publicznie ogłosił sprzedaż całego swojego udziału w Loquendo firmie Nuance za 53 mln euro.

Produkty

Zobacz też

widz
Acapela

Bibliografia

(it) Luigi Bonavoglia, „CSELT trent'anni” , wyd. CSELT, 1994 [1]
(it) Roberto Billi (kurator), wraz z następującymi autorami CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri Nuovi servizi a portata di voce” , wyd. Laboratorium telekomunikacyjne 1995, ISBN 88-85404-09-X , ISBN 978-88-85404-09-0
(en) Pirani, Giancarlo, wyd. Zaawansowane algorytmy i architektury do rozumienia mowy. Tom. 1. Springer Science & Business Media, 2013. ISBN 978-3-540-53402-0
(it) Quarant'anni d'innovazione , wyd. Millennium srl, (suplement do numeru 224 di Media Duemila, 2005)
(it) torinowireless.it
(to) smau.it
(it) corriere.it
(it) iscom.it
(it) deputatids.it
(it) h-care.eu
(it) Forum PA 17–20 maja 2010 – Cartella Stampa AVAYA

Linki zewnętrzne

stronie Loquendo