Sieć neuronowa z opóźnieniem czasowym

diagram TDNN

Sieć neuronowa z opóźnieniem czasowym ( TDNN ) to wielowarstwowa architektura sztucznej sieci neuronowej , której celem jest 1) klasyfikowanie wzorców z niezmiennością przesunięcia oraz 2) modelowanie kontekstu w każdej warstwie sieci.

Klasyfikacja niezmienna z przesunięciem oznacza, że klasyfikator nie wymaga wyraźnej segmentacji przed klasyfikacją. W celu klasyfikacji wzorca czasowego (takiego jak mowa), TDNN unika zatem konieczności określania punktów początkowych i końcowych dźwięków przed ich sklasyfikowaniem.

W przypadku modelowania kontekstowego w TDNN każda jednostka neuronowa w każdej warstwie otrzymuje dane wejściowe nie tylko z aktywacji/funkcji w warstwie poniżej, ale także ze wzorca danych wyjściowych jednostki i jej kontekstu. W przypadku sygnałów czasowych każda jednostka otrzymuje jako dane wejściowe wzorce aktywacji w czasie z jednostek poniżej. Stosowany do klasyfikacji dwuwymiarowej (obrazy, wzorce czasowo-częstotliwościowe), TDNN można wyszkolić z niezmiennością przesunięcia w przestrzeni współrzędnych i uniknąć precyzyjnej segmentacji w przestrzeni współrzędnych.

Historia

TDNN został wprowadzony pod koniec lat 80. XX wieku i zastosowany do zadania klasyfikacji fonemów do automatycznego rozpoznawania mowy w sygnałach mowy, gdzie automatyczne określenie precyzyjnych segmentów lub granic cech było trudne lub niemożliwe. Ponieważ TDNN rozpoznaje fonemy i leżące u ich podstaw cechy akustyczne/fonetyczne, niezależnie od pozycji w czasie, poprawia wydajność w porównaniu z klasyfikacją statyczną. Zastosowano go również do sygnałów dwuwymiarowych (wzorców czasowo-częstotliwościowych w mowie i wzorców przestrzeni współrzędnych w OCR).

Maksymalna pula

W 1990 roku Yamaguchi i in. wprowadził koncepcję maksymalnego łączenia. Zrobili to, łącząc sieci TDNN z maksymalnym łączeniem, aby stworzyć niezależny od mówcy system rozpoznawania izolowanych słów.

Przegląd

Sieć neuronowa z opóźnieniem czasowym, podobnie jak inne sieci neuronowe, działa z wieloma połączonymi ze sobą warstwami perceptronów i jest realizowana jako sieć neuronowa z wyprzedzeniem . Wszystkie neurony (w każdej warstwie) TDNN otrzymują dane wejściowe z wyjść neuronów w warstwie poniżej, ale z dwiema różnicami:

W przeciwieństwie do zwykłych perceptronów wielowarstwowych , wszystkie jednostki w TDNN, w każdej warstwie, uzyskują dane wejściowe z kontekstowego okna danych wyjściowych z warstwy poniżej. W przypadku sygnałów zmieniających się w czasie (np. mowa), każda jednostka ma połączenia z wyjściem z jednostek poniżej, ale także z wyjściami opóźnionymi w czasie (przeszłymi) z tych samych jednostek. To modeluje czasowy wzór / trajektorię jednostek. W przypadku sygnałów dwuwymiarowych (np. wzorców czasowo-częstotliwościowych lub obrazów) w każdej warstwie obserwowane jest dwuwymiarowe okno kontekstowe. Wyższe warstwy mają dane wejściowe z szerszych okien kontekstowych niż niższe warstwy, a zatem generalnie modelują grubsze poziomy abstrakcji.
Niezmienność przesunięcia uzyskuje się przez jawne usunięcie zależności pozycji podczas propagacji wstecznej szkolenie. Odbywa się to poprzez tworzenie przesuniętych w czasie kopii sieci w wymiarze niezmienności (tutaj: czas). Gradient błędu jest następnie obliczany przez propagację wsteczną we wszystkich tych sieciach z ogólnego wektora docelowego, ale przed wykonaniem aktualizacji wagi gradienty błędów związane z przesuniętymi kopiami są uśredniane, a tym samym dzielone i ograniczane, aby były równe. W ten sposób usunięta jest cała zależność pozycji od uczenia propagacji wstecznej przez przesunięte kopie, a skopiowane sieci uczą się najistotniejszych ukrytych cech przesuwając niezmiennie, tj. niezależnie od ich dokładnej pozycji w danych wejściowych. Niezmienność przesunięcia można również łatwo rozszerzyć na wiele wymiarów, narzucając podobny podział wagi na kopie, które są przesuwane wzdłuż wielu wymiarów.

Przykład

W przypadku sygnału mowy wejściami są współczynniki widmowe w czasie.

Aby nauczyć się krytycznych cech akustyczno-fonetycznych (na przykład przejść formantów, wybuchów, frykacji itp.) bez uprzedniego wymagania dokładnej lokalizacji, TDNN jest szkolony niezmiennie z przesunięciem czasowym. Niezmienność przesunięcia czasowego jest osiągana poprzez podział ciężaru w czasie podczas treningu: przesunięte w czasie kopie TDNN są tworzone w zakresie wejściowym (od lewej do prawej na ryc. 1). Następnie przeprowadzana jest wsteczna propagacja z ogólnego docelowego wektora klasyfikacji (patrz diagram TDNN, trzy docelowe klasy fonemów (/b/, /d/, /g/) są pokazane w warstwie wyjściowej), co skutkuje gradientami, które generalnie będą się różnić dla każdego z przesunięte w czasie kopie sieciowe. Ponieważ jednak takie przesunięte w czasie sieci są tylko kopiami, zależność pozycji jest usuwana przez podział wagi. W tym przykładzie odbywa się to poprzez uśrednienie gradientów z każdej przesuniętej w czasie kopii przed wykonaniem aktualizacji wagi. W mowie wykazano, że trening niezmienny z przesunięciem czasowym uczy się macierzy wag, które są niezależne od dokładnego pozycjonowania danych wejściowych. Można by również wykazać, że macierze wagowe wykrywają ważne cechy akustyczno-fonetyczne, o których wiadomo, że są ważne dla percepcji ludzkiej mowy, takie jak przejścia formantowe, wybuchy itp. TDNN można również łączyć lub hodować w ramach treningu wstępnego.

Realizacja

Dokładna architektura sieci TDNN (opóźnienia czasowe, liczba warstw) jest w większości określana przez projektanta w zależności od problemu klasyfikacji i najbardziej użytecznych rozmiarów kontekstu. Opóźnienia lub okna kontekstowe są wybierane indywidualnie dla każdej aplikacji. Podjęto również prace nad stworzeniem sieci TDNN z możliwością dostosowania z opóźnieniem czasowym, w których ręczne dostrajanie jest wyeliminowane.

Stan techniki

Rozpoznawanie fonemów oparte na TDNN wypadł korzystnie we wczesnych porównaniach z modelami telefonów opartymi na HMM. Nowoczesne głębokie architektury TDNN obejmują znacznie więcej ukrytych warstw i połączeń podpróbek lub puli w szerszych kontekstach na wyższych warstwach. Osiągają do 50% redukcję błędów słownych w porównaniu z modelami akustycznymi opartymi na GMM . Podczas gdy różne warstwy sieci TDNN mają na celu poznanie funkcji o rosnącej szerokości kontekstu, modelują one lokalne konteksty. Gdy trzeba przetwarzać relacje na dłuższy dystans i sekwencje wzorców, ważne jest uczenie się stanów i sekwencji stanów, a sieci TDNN można łączyć z innymi technikami modelowania.

Aplikacje

Rozpoznawanie mowy

TDNN używane do rozwiązywania problemów z rozpoznawaniem mowy, które zostały wprowadzone w 1989 roku i początkowo koncentrowały się na rozpoznawaniu fonemów niezmiennych z przesunięciem. Mowa dobrze nadaje się do TDNN, ponieważ wypowiadane dźwięki rzadko mają jednolitą długość, a precyzyjna segmentacja jest trudna lub niemożliwa. Skanując dźwięk w przeszłości i przyszłości, TDNN jest w stanie skonstruować model dla kluczowych elementów tego dźwięku w niezmienny sposób z przesunięciem czasowym. Jest to szczególnie przydatne, ponieważ dźwięki są rozmazane przez pogłos. Duże fonetyczne sieci TDNN można konstruować modułowo poprzez wstępne szkolenie i łączenie mniejszych sieci.

Rozpoznawanie mowy z dużym słownictwem

Rozpoznawanie mowy z dużym słownictwem wymaga rozpoznawania sekwencji fonemów, które składają się na słowa podlegające ograniczeniom dużego słownika wymowy. Integracja TDNN z dużymi słownikami rozpoznawania mowy jest możliwa poprzez wprowadzenie przejść między stanami i wyszukiwanie między fonemami składającymi się na słowo. Powstała wielostanowa sieć neuronowa z opóźnieniem czasowym (MS-TDNN) może być trenowana w zakresie rozróżniania z poziomu słowa, optymalizując w ten sposób cały układ pod kątem rozpoznawania słów zamiast klasyfikacji fonemów.

Niezależność mówców

Zaproponowano dwuwymiarowe warianty TDNN dla niezależności mówców. W tym przypadku niezmienniczość przesunięcia jest stosowana zarówno do osi czasu, jak i do osi częstotliwości, aby poznać ukryte cechy, które są niezależne od dokładnej lokalizacji w czasie i częstotliwości (ta ostatnia wynika ze zmienności mówców).

Pogłos

Jednym z utrzymujących się problemów z rozpoznawaniem mowy jest rozpoznawanie mowy, gdy jest ona zakłócona przez echo i pogłos (jak ma to miejsce w dużych pomieszczeniach i odległych mikrofonach). Pogłos można postrzegać jako zniekształcenie mowy z opóźnionymi wersjami samego siebie. Ogólnie rzecz biorąc, trudno jest jednak zlikwidować pogłos, ponieważ funkcja odpowiedzi impulsowej (a tym samym szum splotowy doświadczany przez sygnał) nie jest znana dla żadnej dowolnej przestrzeni. Wykazano, że TDNN skutecznie rozpoznaje mowę pomimo różnych poziomów pogłosu.

Czytanie z ust – mowa audiowizualna

TDNN były również z powodzeniem wykorzystywane we wczesnych demonstracjach mowy audiowizualnej, w których dźwięki mowy są uzupełniane ruchem warg do czytania wizualnego. W tym przypadku aparaty rozpoznawające oparte na TDNN wykorzystywały wspólnie funkcje wizualne i akustyczne, aby osiągnąć lepszą dokładność rozpoznawania, szczególnie w obecności szumu, gdzie uzupełniające informacje z alternatywnej modalności można ładnie połączyć w sieć neuronową.

Rozpoznawanie pisma odręcznego

Sieci TDNN są skutecznie wykorzystywane w kompaktowych i wydajnych systemach rozpoznawania pisma ręcznego . Niezmienność przesunięcia została również dostosowana do wzorców przestrzennych (osie x/y) w rozpoznawaniu pisma ręcznego obrazu w trybie offline.

Analiza wideo

Wideo ma wymiar czasowy, co sprawia, że TDNN jest idealnym rozwiązaniem do analizy wzorców ruchu. Przykładem takiej analizy jest połączenie wykrywania pojazdów i rozpoznawania pieszych. Podczas sprawdzania filmów kolejne obrazy są wprowadzane do TDNN jako dane wejściowe, gdzie każdy obraz jest następną klatką wideo. Siła TDNN wynika z jego zdolności do badania obiektów przesuniętych w czasie do przodu i do tyłu w celu zdefiniowania obiektu wykrywalnego w miarę zmiany czasu. Jeśli obiekt może zostać rozpoznany w ten sposób, aplikacja może zaplanować znalezienie tego obiektu w przyszłości i wykonać optymalną akcję.

Rozpoznawanie obrazu

Dwuwymiarowe sieci TDNN zostały później zastosowane do innych zadań rozpoznawania obrazów pod nazwą „ Konwolucyjne sieci neuronowe ”, w których trening niezmienny z przesunięciem jest stosowany do osi x / y obrazu.

Biblioteki wspólne

Sieci TDNN można zaimplementować praktycznie we wszystkich strukturach uczenia maszynowego przy użyciu jednowymiarowych konwolucyjnych sieci neuronowych , ze względu na równoważność metod.
Matlab : Zestaw narzędzi sieci neuronowej ma wyraźną funkcjonalność zaprojektowaną do tworzenia sieci neuronowej z opóźnieniem czasowym, dającą wielkość kroku opóźnień czasowych i opcjonalną funkcję uczenia. Domyślnym algorytmem uczącym jest algorytm wstecznej propagacji uczenia nadzorowanego, który aktualizuje wagi filtrów na podstawie optymalizacji Levenberga-Marquardta. Funkcja to timedelaynet(delays, hidden_layers, train_fnc) i zwraca architekturę sieci neuronowej z opóźnieniem czasowym, którą użytkownik może trenować i dostarczać danych wejściowych.
Kaldi ASR Toolkit zawiera implementację TDNN z kilkoma optymalizacjami pod kątem rozpoznawania mowy.

Zobacz też

Konwolucyjna sieć neuronowa – konwolucyjna sieć neuronowa, w której splot jest wykonywany wzdłuż osi czasu danych, jest bardzo podobna do TDNN.
Rekurencyjne sieci neuronowe – rekurencyjna sieć neuronowa obsługuje również dane czasowe, choć w inny sposób. Zamiast danych wejściowych zmieniających się w czasie, RNN utrzymują wewnętrzne ukryte warstwy, aby śledzić przeszłe (a w przypadku dwukierunkowych RNN, przyszłe) dane wejściowe.