Segmentacja mowy

Segmentacja mowy to proces identyfikowania granic między słowami , sylabami lub fonemami w mówionych językach naturalnych . Termin ten odnosi się zarówno do umysłowych stosowanych przez ludzi, jak i do sztucznych procesów przetwarzania języka naturalnego .

Segmentacja mowy jest poddziedziną ogólnej percepcji mowy i ważnym podproblemem ukierunkowanej technologicznie dziedziny rozpoznawania mowy i nie może być odpowiednio rozwiązana w izolacji. Podobnie jak w przypadku większości związanych z przetwarzaniem języka naturalnego , należy wziąć pod uwagę kontekst , gramatykę i semantykę , a mimo to często wynikiem jest podział probabilistyczny (statystycznie oparty na prawdopodobieństwie), a nie kategoryczny. Chociaż wydaje się, że koartykulacja — zjawisko, które może wystąpić między sąsiednimi słowami równie łatwo, jak w obrębie jednego słowa — stanowi główne wyzwanie w segmentacji mowy w różnych językach, niektóre inne problemy i strategie stosowane w rozwiązywaniu tych problemów można zobaczyć w poniższych sekcjach.

Ten problem pokrywa się w pewnym stopniu z problemem segmentacji tekstu , który występuje w niektórych językach, które są tradycyjnie pisane bez spacji międzywyrazowych, takich jak chiński i japoński , w porównaniu z systemami pisma , które wskazują segmentację mowy między słowami za pomocą separatora słów , takiego jak przestrzeń . Jednak nawet w przypadku tych języków segmentacja tekstu jest często znacznie łatwiejsza niż segmentacja mowy, ponieważ w języku pisanym występuje zazwyczaj niewielka ingerencja między sąsiednie słowa i często zawiera dodatkowe wskazówki, których nie ma w mowie (takie jak użycie chińskich znaków w rdzeniach słów w Język japoński).

Rozpoznawanie leksykalne

W językach naturalnych znaczenie złożonego zdania mówionego można zrozumieć, rozkładając je na mniejsze segmenty leksykalne (z grubsza słowa języka), przypisując znaczenie każdemu segmentowi i łącząc te znaczenia zgodnie z regułami gramatycznymi języka .

Chociaż uważa się, że rozpoznawanie leksykalne nie jest używane przez niemowlęta w pierwszym roku życia, ze względu na ich bardzo ograniczone słownictwo, jest to jeden z głównych procesów związanych z segmentacją mowy u dorosłych. W obecnych badaniach istnieją trzy główne modele rozpoznawania leksykalnego: po pierwsze, dostęp do całych słów, który dowodzi, że słowa mają reprezentację w całym słowie w leksykonie; po drugie, dekompozycja, która dowodzi, że złożone morfologicznie słowa są podzielone na ich morfemy ( korzenie , rdzenie , fleksje , itp.), a następnie interpretowane i; po trzecie, pogląd, że używane są zarówno modele całego słowa, jak i modele dekompozycji, ale model całego słowa zapewnia pewne korzyści obliczeniowe i dlatego dominuje w rozpoznawaniu leksykalnym.

Na przykład w modelu całego słowa słowo „koty” może być przechowywane i wyszukiwane według litery, najpierw „c”, potem „ca”, „kot” i na końcu „koty”. To samo słowo, w modelu dekompozycyjnym, prawdopodobnie byłoby przechowywane pod słowem głównym „kot” i można by je wyszukać po usunięciu sufiksu „s”. Podobnie „spadanie” byłoby przechowywane jako „upadek” i dodawane do odmiany „ing”.

Chociaż zwolennicy modelu dekompozycyjnego uznają, że analiza morfem po morfemie może wymagać znacznie więcej obliczeń, argumentują, że rozpakowanie informacji morfologicznej jest konieczne dla innych procesów (takich jak struktura składniowa ), które mogą zachodzić równolegle do poszukiwań leksykalnych.

Ogólnie rzecz biorąc, badania nad systemami ludzkiego rozpoznawania leksykalnego są ograniczone ze względu na niewielką liczbę dowodów eksperymentalnych, które w pełni rozróżniają trzy główne modele.

W każdym razie rozpoznawanie leksykalne prawdopodobnie znacząco przyczynia się do segmentacji mowy dzięki wskazówkom kontekstowym, które dostarcza, biorąc pod uwagę, że jest to system silnie probabilistyczny - oparty na statystycznym prawdopodobieństwie wystąpienia pewnych słów lub składników razem. Na przykład można sobie wyobrazić sytuację, w której osoba może powiedzieć „Kupiłem psa w sklepie ____”, a samogłoska brakującego słowa jest wymawiana jak w „net”, „pot” lub „pet”. Chociaż prawdopodobieństwo „netshop” jest bardzo niskie, ponieważ „netshop” nie jest obecnie związkiem ani wyrażeniem w języku angielskim, a „sweatshop” również wydaje się kontekstowo nieprawdopodobne, „pet shop” dobrze pasuje, ponieważ jest to powszechne wyrażenie i jest również powiązany ze słowem „pies”.

Co więcej, wypowiedź może mieć różne znaczenia w zależności od tego, jak jest podzielona na słowa. Popularnym przykładem, często cytowanym w terenie, jest fraza „Jak zrujnować ładną plażę”, która brzmi bardzo podobnie do „Jak rozpoznać mowę”. Jak pokazuje ten przykład, właściwa segmentacja leksykalna zależy od kontekstu i semantyki , która opiera się na całości ludzkiej wiedzy i doświadczenia, a zatem wymagałaby wdrożenia na komputerze zaawansowanych technologii rozpoznawania wzorców i sztucznej inteligencji .

Rozpoznawanie leksykalne ma szczególną wartość w dziedzinie komputerowego rozpoznawania mowy , ponieważ możliwość budowania i przeszukiwania sieci powiązanych semantycznie idei znacznie zwiększyłaby skuteczność oprogramowania do rozpoznawania mowy. Modele statystyczne mogą służyć do segmentowania i dopasowywania nagranej mowy do słów lub telefonów. Zastosowania obejmują automatyczną synchronizację ruchu warg w animacjach animowanych, tworzenie napisów w filmach podążających za odbijającą się piłką oraz badania lingwistyczne. Oprogramowanie do automatycznej segmentacji i wyrównywania jest dostępne w handlu.

Wskazówki fonotatyczne

W przypadku większości języków mówionych granice między jednostkami leksykalnymi są trudne do określenia; fonotaktyka to jedna z odpowiedzi na ten problem. Można by się spodziewać, że odstępy międzywyrazowe używane w wielu językach pisanych, takich jak angielski czy hiszpański, będą odpowiadać pauzom w ich wersji mówionej, ale jest to prawdą tylko w bardzo wolnej mowie, gdy mówca celowo wstawia te pauzy. W normalnej mowie zwykle wypowiada się wiele następujących po sobie słów bez przerw między nimi, a często końcowe dźwięki jednego słowa płynnie łączą się lub łączą z początkowymi dźwiękami następnego słowa.

Pogląd, że mowa jest tworzona jak pismo, jako sekwencja odrębnych samogłosek i spółgłosek, może być reliktem dziedzictwa alfabetycznego dla niektórych społeczności językowych. W rzeczywistości sposób tworzenia samogłosek zależy od otaczających spółgłosek, tak jak na spółgłoski wpływają otaczające samogłoski; nazywa się to koartykulacją . Na przykład w słowie „zestaw” [k] jest bardziej wysunięte do przodu niż wtedy, gdy mówimy „złapany”. Ale także samogłoska w słowie „kopnięcie” różni się fonetycznie od samogłoski w słowie „kit”, chociaż normalnie tego nie słyszymy. Ponadto w mowie potocznej występują zmiany specyficzne dla języka, co znacznie różni się od pisowni. Na przykład w języku angielskim wyrażenie „hit you” można często lepiej zapisać jako „hitcha”.

Z perspektywy dekompozycji w wielu przypadkach fonotaktyka odgrywa rolę w informowaniu mówców, gdzie narysować granice słów. W języku angielskim słowo „strawberry” jest postrzegane przez użytkowników jako składające się (fonetycznie) z dwóch części: „straw” i „berry”. Inne interpretacje, takie jak „stra” i „wberry”, są hamowane przez angielską fonotaktykę, która nie pozwala na zgrupowanie „wb” na początku słowa. Inne takie przykłady to „dzień/sen” i „mila/kamień”, których interpretacja jako „da/ydream” lub „mil/estone” jest mało prawdopodobna ze względu na prawdopodobieństwo fonotaktyczne lub nieprawdopodobieństwa niektórych klastrów. Zdanie „Pięć kobiet w lewo”, które można fonetycznie zapisać jako [faɪvwɪmɘnlɛft], jest zaznaczone, ponieważ ani / vw / w / faɪvwɪmɘn / ani / nl / w / wɪmɘnlɛft / nie są dozwolone jako sylaba początki lub kody w angielskiej fonotaktyce. Te sygnały fonotaktyczne często pozwalają mówcom łatwo odróżnić granice w słowach.

Harmonia samogłosek w językach takich jak fiński może również służyć do dostarczania wskazówek fonotaktycznych. Chociaż system nie pozwala na występowanie razem samogłosek przednich i tylnych w jednym morfemie, związki pozwalają dwóm morfemom zachować własną harmonię samogłosek, jednocześnie współistniejąc w słowie. Dlatego w złożeniach takich jak „selkä / ongelma” („problem z plecami”), w których harmonia samogłosek jest wyraźna między dwoma składnikami w złożeniu, granica będzie przebiegać tam, gdzie nastąpi zmiana harmonii - między „ä” i „ö " w tym przypadku. Mimo to istnieją przypadki, w których fonotaktyka może nie pomóc w segmentacji. Słowa z niejasnymi skupiskami lub nieskontrastowaną harmonią samogłosek, jak w „opinto / uudistus” („reforma studencka”), nie dają fonotaktycznych wskazówek co do sposobu ich segmentacji. ^{[ potrzebne pełne cytowanie ]}

Jednak z perspektywy modelu całego słowa słowa te są uważane za przechowywane jako pełne słowa, więc części składowe niekoniecznie byłyby istotne dla rozpoznawania leksykalnego.

Segmentacja mowy u niemowląt i obcokrajowców

Niemowlęta są jednym z głównych obszarów badań nad segmentacją mowy. Ponieważ niemowlęta nie przyswoiły jeszcze leksykonu zdolnego dostarczyć obszernych wskazówek kontekstowych lub opartych na prawdopodobieństwie wyszukiwania słów w ciągu pierwszego roku życia, jak wspomniano powyżej, często muszą polegać głównie na sygnałach fonotaktycznych i rytmicznych (przy czym prozodia jest dominującą wskazówką) , wszystkie które są specyficzne dla języka. Między 6 a 9 miesiącem niemowlęta zaczynają tracić zdolność rozróżniania dźwięków nieobecnych w ich języku ojczystym i stają się wrażliwe na strukturę dźwiękową swojego języka ojczystego, a zdolności segmentacji słów pojawiają się około 7,5 miesiąca.

Chociaż należy przeprowadzić znacznie więcej badań nad dokładnymi procesami, których używają niemowlęta, aby rozpocząć segmentację mowy, obecne i wcześniejsze badania sugerują, że niemowlęta anglojęzyczne traktują akcentowane sylaby jako początek słów. Wydaje się, że w wieku 7,5 miesiąca niemowlęta są w stanie podzielić dwusylabowe słowa z akcentem silnym na słaby wzorce, chociaż słabe-silne wzorce naprężeń są często błędnie interpretowane, np. interpretacja „guiTAR is” jako „GUI TARis”. Wydaje się, że niemowlęta również wykazują pewną złożoność w śledzeniu częstotliwości i prawdopodobieństwa słów, na przykład rozpoznając, że chociaż sylaby „the” i „pies” często występują razem, „the” często występuje również z innymi sylabami, co może prowadzić do analiza, że „pies” jest indywidualnym słowem lub pojęciem zamiast interpretacji „pies”.

Osoby uczące się języków to kolejna grupa osób badana w ramach segmentacji mowy. Pod pewnymi względami nauka segmentacji mowy może być trudniejsza dla osoby uczącej się drugiego języka niż dla niemowlęcia, nie tylko ze względu na brak znajomości prawdopodobieństw i ograniczeń dźwiękowych, ale przede wszystkim z powodu nadmiernego stosowania wzorców języka ojczystego. Chociaż między językami mogą występować pewne wzorce, na przykład w sylabicznym podziale języka francuskiego i angielskiego, mogą one nie działać dobrze z językami takimi jak japoński, który ma mora oparty na systemie segmentacji. Ponadto dozwolone są ograniczenia fonotaktyczne, takie jak klaster wyznaczania granic / ld / w języku niemieckim lub niderlandzkim (bez konieczności oznaczania granic) w języku angielskim. Nawet związek między akcentem a długością samogłoski , który może wydawać się intuicyjny dla osób mówiących po angielsku, może nie istnieć w innych językach, więc osoby uczące się drugiego języka stają przed szczególnie dużym wyzwaniem podczas nauki języka i jego wskazówek dotyczących segmentacji.

Zobacz też

Linki zewnętrzne