Przetwarzanie głosu

Amazon Echo , przykład komputera głosowego

Obliczenia głosowe to dyscyplina, która opracowuje sprzęt lub oprogramowanie do przetwarzania danych głosowych.

Obejmuje wiele innych dziedzin, w tym interakcję człowiek-komputer , obliczenia konwersacyjne , językoznawstwo , przetwarzanie języka naturalnego , automatyczne rozpoznawanie mowy , syntezę mowy , inżynierię dźwięku , cyfrowe przetwarzanie sygnałów , przetwarzanie w chmurze , naukę o danych , etykę , prawo i bezpieczeństwo informacji .

Przetwarzanie głosowe nabiera coraz większego znaczenia w dzisiejszych czasach, zwłaszcza wraz z pojawieniem się inteligentnych głośników , takich jak Amazon Echo i Asystent Google , przejściem w kierunku przetwarzania bezserwerowego oraz poprawioną dokładnością rozpoznawania mowy i modelami zamiany tekstu na mowę .

Historia

Przetwarzanie głosu ma bogatą historię. Po pierwsze, naukowcy tacy jak Wolfgang Kempelen zaczęli budować maszyny do generowania najwcześniejszych syntetycznych dźwięków mowy. Doprowadziło to do dalszych prac Thomasa Edisona nad nagrywaniem dźwięku za pomocą dyktafonów i odtwarzaniem go w ustawieniach korporacyjnych. W latach 1950-1960 były prymitywne próby budowy zautomatyzowanych rozpoznawania mowy przez Bell Labs , IBM i inne. Jednak dopiero w latach 80. XX wieku, kiedy ukryte modele Markowa zostały użyte do rozpoznania do 1000 słów, systemy rozpoznawania mowy stały się istotne.

Data	Wydarzenie
1784	Wolfgang von Kempelen tworzy akustyczno-mechaniczną maszynę mowy.
1879	Thomas Edison wynalazł pierwszą maszynę do dyktowania .
1952	Bell Labs wypuszcza Audrey , zdolne do rozpoznawania mówionych cyfr z 90% dokładnością.
1962	IBM Shoebox rozpoznaje do 16 słów.
1971	Powstaje Harpia , która potrafi zrozumieć ponad 1000 słów.
1986	IBM Tangora używa ukrytych modeli Markowa do przewidywania fonemów w mowie.
2006	Agencja Bezpieczeństwa Narodowego rozpoczyna badania nad wykrywaniem słów-kluczy podczas normalnych rozmów.
2008	Google uruchamia aplikację głosową, wprowadzającą rozpoznawanie mowy na urządzenia mobilne.
2011	Apple wypuszcza Siri na iPhone'a
2014	Amazon wypuszcza Amazon Echo , aby przetwarzanie głosu było przydatne dla ogółu społeczeństwa.

Około 2011 roku Siri pojawiła się na iPhone'ach Apple jako pierwszy asystent głosowy dostępny dla konsumentów. Ta innowacja doprowadziła do radykalnego przejścia do budowania architektur obliczeniowych opartych na głosie. PS4 zostało wydane przez Sony w Ameryce Północnej w 2013 roku (ponad 70 milionów urządzeń), Amazon wypuścił Amazon Echo w 2014 roku (ponad 30 milionów urządzeń), Microsoft wypuścił Cortanę (2015 - 400 milionów użytkowników Windows 10), Google wypuścił Asystenta Google (2016 - 2 miliardy aktywnych użytkowników miesięcznie na telefonach z Androidem), a Apple wypuściło HomePod (2018 – 500 000 sprzedanych urządzeń i 1 miliard aktywnych urządzeń z systemem iOS/Siri). Te zmiany, wraz z postępem w infrastrukturze chmurowej (np. Amazon Web Services ) i kodekami , ugruntowały dziedzinę przetwarzania głosu i sprawiły, że stała się ona szeroko dostępna dla ogółu społeczeństwa.

Sprzęt komputerowy

Komputer głosowy to zmontowany sprzęt i oprogramowanie do przetwarzania danych głosowych.

Zwróć uwagę, że komputery głosowe niekoniecznie potrzebują ekranu, jak w tradycyjnym Amazon Echo . W innych przykładach wykonania tradycyjne laptopy lub telefony komórkowe mogą być używane jako komputery głosowe. Co więcej, wraz z pojawieniem się urządzeń obsługujących IoT , takich jak samochody czy telewizory, pojawia się coraz więcej interfejsów dla komputerów głosowych .

Według stanu na wrzesień 2018 r. istnieje obecnie ponad 20 000 typów urządzeń kompatybilnych z Amazon Alexa.

Oprogramowanie

Oprogramowanie do przetwarzania głosu może odczytywać/zapisywać, nagrywać, czyścić, szyfrować/odszyfrowywać, odtwarzać, transkodować, transkrybować, kompresować, publikować, prezentować, modelować i wizualizować pliki głosowe.

Oto kilka popularnych pakietów oprogramowania związanych z przetwarzaniem głosu:

Nazwa pakietu	Opis
FFmpeg	do transkodowania plików audio z jednego formatu na inny (np. .WAV --> .MP3).
Śmiałość	do nagrywania i filtrowania dźwięku.
SoX	do manipulowania plikami audio i usuwania szumów otoczenia.
Zestaw narzędzi języka naturalnego	do prezentowania transkrypcji z elementami takimi jak części mowy .
LibROSA	do wizualizacji spektrogramów plików audio i featuryzacji plików audio.
OtwórzUŚMIECH	do wzbogacania plików audio takimi rzeczami, jak współczynniki cepstrum częstotliwości mel.
CMU Sfinks	do transkrypcji plików mowy na tekst.
Pyttsx3	do odtwarzania plików audio (zamiana tekstu na mowę).
Pykryptodom	do szyfrowania i deszyfrowania plików audio.

Aplikacje

Aplikacje przetwarzania głosu obejmują wiele branż, w tym asystentów głosowych, opiekę zdrowotną, handel elektroniczny, finanse, łańcuch dostaw, rolnictwo, zamianę tekstu na mowę, bezpieczeństwo, marketing, obsługę klienta, rekrutację, przetwarzanie w chmurze, mikrofony, głośniki i podcasting. Przewiduje się, że technologia głosowa wzrośnie o CAGR na poziomie 19-25% do 2025 r., co czyni ją atrakcyjną branżą zarówno dla startupów, jak i inwestorów.

Względy prawne

W Stanach Zjednoczonych różne stany mają różne przepisy dotyczące nagrywania rozmów telefonicznych . W niektórych stanach legalne jest nagrywanie rozmowy za zgodą tylko jednej ze stron, w innych wymagana jest zgoda wszystkich stron.

Co więcej, COPPA jest ważnym prawem chroniącym nieletnich korzystających z Internetu. Wraz z rosnącą liczbą nieletnich korzystających z głosowych urządzeń komputerowych (np. Amazon Alexa), 23 października 2017 r. Federalna Komisja Handlu złagodziła przepisy COPAA, aby dzieci mogły głosowo wyszukiwać i wydawać polecenia.

Wreszcie RODO to nowe prawo europejskie, które reguluje prawo do bycia zapomnianym i wiele innych klauzul dla obywateli UE. RODO jasno określa również, że firmy muszą określić jasne środki uzyskiwania zgody w przypadku dokonywania nagrań dźwiękowych oraz określić cel i zakres wykorzystania tych nagrań, np. do celów szkoleniowych. Poprzeczka dla ważnej zgody została podniesiona w ramach RODO. Zgody muszą być dobrowolne, konkretne, świadome i jednoznaczne; milcząca zgoda nie jest już wystarczająca.

Konferencje naukowe

Istnieje wiele konferencji naukowych, które dotyczą przetwarzania głosu. Niektóre z nich obejmują:

Międzynarodowa konferencja na temat akustyki, mowy i przetwarzania sygnałów
Intermowa
AVEC
IEEE Int'l Conf. w sprawie automatycznego rozpoznawania twarzy i gestów
ACII2019 8. konferencja międzynarodowa w sprawie afektywnego przetwarzania danych i inteligentnej interakcji

Społeczność programistów

Asystent Google ma około 2000 działań według stanu na styczeń 2018 r.

Według stanu na wrzesień 2018 r. na całym świecie istnieje ponad 50 000 umiejętności Alexa.

W czerwcu 2017 r. Google wypuściło AudioSet, zakrojoną na dużą skalę kolekcję 10-sekundowych klipów dźwiękowych oznaczonych przez ludzi, zaczerpniętych z filmów z YouTube. Zawiera 1 010 480 filmów z plikami ludzkiej mowy, czyli łącznie 2 793,5 godziny. Został wydany w ramach konferencji IEEE ICASSP 2017.

W listopadzie 2017 r. Fundacja Mozilla udostępniła Common Voice Project, zbiór plików mowy, który ma pomóc w wniesieniu wkładu w większą społeczność uczenia maszynowego typu open source. Bank głosowy ma obecnie rozmiar 12 GB i zawiera ponad 500 godzin anglojęzycznych danych głosowych, które zostały zebrane ze 112 krajów od początku projektu w czerwcu 2017 r. Ten zestaw danych zaowocował już kreatywnymi projektami, takimi jak model DeepSpeech, open source model transkrypcji.

Zobacz też