Produkcja mowy
Część serii poświęconej | ||||||
fonetyce | ||||||
---|---|---|---|---|---|---|
Część serii Lingwistyka | ||||||
subdyscyplin | ||||||
Artykulacja | ||||||
|
||||||
Akustyka | ||||||
|
||||||
Postrzeganie | ||||||
|
||||||
Portal językoznawczy | ||||||
Tworzenie mowy to proces, w którym myśli są tłumaczone na mowę. Obejmuje to dobór słów , organizację odpowiednich form gramatycznych , a następnie artykulację powstałych dźwięków przez układ ruchowy za pomocą aparatu głosowego . Wytwarzanie mowy może być spontaniczne, gdy osoba tworzy słowa rozmowy , reaktywne, takie jak nazywanie obrazu lub odczytywanie na głos słowa pisanego , lub imitacyjne, takie jak powtarzanie mowy . Wytwarzanie mowy to nie to samo, co wytwarzanie języka , ponieważ język można również wytwarzać ręcznie za pomocą znaków .
W zwykłej płynnej rozmowie ludzie wymawiają mniej więcej cztery sylaby , dziesięć lub dwanaście fonemów i dwa do trzech słów ze swojego słownika (który może zawierać od 10 do 100 tysięcy słów) na sekundę. Błędy w produkcji mowy są stosunkowo rzadkie i występują z częstością mniej więcej raz na 900 słów w mowie spontanicznej. Słowa, które są powszechnie wypowiadane lub których uczymy się we wczesnym okresie życia lub które łatwo sobie wyobrazić, są wypowiadane szybciej niż te, które są rzadko wypowiadane, których uczymy się w późniejszym życiu lub są abstrakcyjne.
Normalnie mowa powstaje pod wpływem ciśnienia płucnego wytwarzanego przez płuca , które generuje dźwięk poprzez fonację przez głośnię w krtani , który następnie jest modyfikowany przez trakt głosowy na różne samogłoski i spółgłoski . Jednak produkcja mowy może odbywać się bez użycia płuc i głośni w mowie krtaniowej przy użyciu górnych części przewodu głosowego. Przykładem takiej mowy krtaniowej jest mowa Kaczora Donalda .
Wokalna produkcja mowy może być związana z wykonywaniem gestów rąk , które mają na celu zwiększenie zrozumiałości tego, co się mówi.
Rozwój produkcji mowy przez całe życie jednostki rozpoczyna się od pierwszego gaworzenia niemowlęcia i przekształca się w pełni rozwiniętą mowę w wieku pięciu lat. Pierwszy etap mowy pojawia się dopiero w wieku około pierwszego roku życia (faza holofrastyczna). W wieku od półtora do dwóch i pół niemowlę może wypowiadać krótkie zdania (faza telegraficzna). Po dwóch i pół roku niemowlę rozwija systemy lematów używanych w produkcji mowy. Około czwartej lub piątej lematy dziecka są znacznie zwiększone; poprawia to produkcję poprawnej mowy przez dziecko i może teraz mówić jak osoba dorosła. Dorosły rozwija teraz mowę w czterech etapach: Aktywacja pojęć leksykalnych, wybór potrzebnych lematów, morfologicznie i fonologicznie kodują mowę, a słowo jest kodowane fonetycznie.
Trzy etapy
Produkcja języka mówionego obejmuje trzy główne poziomy przetwarzania: konceptualizację, sformułowanie i artykulację.
Pierwszym z nich są procesy konceptualizacji lub przygotowania pojęciowego, w których intencja stworzenia mowy łączy pożądaną koncepcję z konkretnymi wypowiedzianymi słowami, które mają być wyrażone. Tutaj formułowane są zamierzone komunikaty przedwerbalne, które określają pojęcia, które mają być wyrażone.
Drugim etapem jest sformułowanie, w którym tworzona jest forma językowa wymagana do wyrażenia pożądanego przekazu. Sformułowanie obejmuje kodowanie gramatyczne, kodowanie morfofonologiczne i kodowanie fonetyczne. Kodowanie gramatyczne to proces wybierania odpowiedniego słowa składniowego lub lematu . Wybrany lemat aktywuje następnie odpowiednią syntaktyczną dla konceptualizowanego komunikatu. Kodowanie morfofonologiczne to proces dzielenia słów na sylaby, które mają być produkowane w mowie jawnej. Syllabizacja zależy od poprzedzających i poprzedzających słów, na przykład: I-com-pre-hend kontra I-com-pre-hen-dit . Ostatnim etapem formułowania jest kodowanie fonetyczne. Polega to na uruchomieniu gestów artykulacyjnych zależnych od wybranych w procesie morfofonologicznym sylab, tworząc partyturę artykulacyjną w miarę składania wypowiedzi i uzupełniania kolejności ruchów aparatu głosowego .
Trzecim etapem wytwarzania mowy jest artykulacja, czyli wykonywanie partytury artykulacyjnej przez płuca, głośnię, krtań, język , wargi , szczękę i inne części aparatu głosowego, w wyniku czego dochodzi do mowy.
Neuronauka
Kontrola motoryczna produkcji mowy u osób praworęcznych zależy głównie od obszarów w lewej półkuli mózgowej . Obszary te obejmują obustronne dodatkowe pole motoryczne , lewy tylny dolny zakręt czołowy , lewą wyspę , lewą pierwotną korę ruchową i korę skroniową . Zaangażowane są również obszary podkorowe, takie jak zwoje podstawy i móżdżek . Móżdżek pomaga sekwencjonować sylaby mowy w szybkie, płynne i rytmicznie zorganizowane słowa oraz dłuższe wypowiedzi.
Zaburzenia
Na produkcję mowy może mieć wpływ kilka zaburzeń:
|
Historia badań nad produkcją mowy
Aż do późnych lat 60. XX wieku badania nad mową koncentrowały się na zrozumieniu. W miarę jak badacze gromadzili coraz większe ilości danych dotyczących błędów mowy , zaczęli badać procesy psychologiczne odpowiedzialne za wytwarzanie dźwięków mowy i zastanawiać się nad możliwymi procesami płynnej mowy. Wyniki badań nad błędami mowy zostały wkrótce włączone do modeli produkcji mowy. Dowody z danych dotyczących błędów mowy potwierdzają następujące wnioski dotyczące produkcji mowy.
Niektóre z tych pomysłów to:
- Mowa jest z góry zaplanowana.
- Leksykon jest zorganizowany zarówno semantycznie, jak i fonologicznie . To przez znaczenie i brzmienie słów.
- Złożone są morfologicznie złożone słowa. Tworzone przez nas słowa zawierające morfemy są łączone podczas procesu tworzenia mowy. Morfemy to najmniejsze jednostki języka zawierające znaczenie. Na przykład „ed” na słowie czasu przeszłego.
- Afiksy i funktory zachowują się inaczej niż słowa kontekstowe w przejęzyczeniach. Oznacza to, że reguły dotyczące sposobów, w jakie słowo może być użyte, są prawdopodobnie przechowywane razem z nimi, co oznacza ogólnie, że w przypadku popełnienia błędu w mowie, błędne słowa zachowują swoje funkcje i mają sens gramatyczny.
- Błędy językowe odzwierciedlają znajomość zasad. Nawet w naszych błędach mowa nie jest bezsensowna. Słowa i zdania, które powstają w wyniku błędów językowych, są typowo gramatyczne i nie naruszają zasad języka, którym się posługuje.
Aspekty modeli produkcji mowy
Modele produkcji mowy muszą zawierać określone elementy, aby były wykonalne. Należą do nich elementy, z których składa się mowa, wymienione poniżej. Akceptowane modele produkcji mowy, omówione bardziej szczegółowo poniżej, wszystkie obejmują te etapy w sposób jawny lub dorozumiany, a te, które są obecnie przestarzałe lub kwestionowane, były krytykowane za przeoczenie jednego lub więcej z następujących etapów.
Atrybuty akceptowanych modeli mowy to:
a) etap konceptualny, w którym mówca abstrakcyjnie identyfikuje to, co chce wyrazić.
b) etap syntaktyczny, w którym wybierana jest rama, w której zostaną umieszczone słowa, ta rama jest zwykle strukturą zdania .
c) etap leksykalny, w którym następuje poszukiwanie słowa na podstawie znaczenia. Po wybraniu i odzyskaniu słowa informacje o nim stają się dostępne dla mówcy, obejmujące fonologię i morfologię.
d) etap fonologiczny, w którym abstrakcyjna informacja jest przekształcana w formę podobną do mowy.
e) etap fonetyczny , w którym przygotowywane są instrukcje do wysłania do mięśni artykulacyjnych .
Ponadto modele muszą uwzględniać mechanizmy planowania z wyprzedzeniem, bufor i mechanizm monitorowania.
Poniżej przedstawiono kilka wpływowych modeli produkcji mowy, które uwzględniają lub uwzględniają wspomniane wcześniej etapy i zawierają informacje odkryte w wyniku badań błędów mowy i innych danych dotyczących niepłynności, takich jak badanie końcówki języka .
Model
Model generatora wypowiedzi (1971)
Model generatora wypowiedzi został zaproponowany przez Fromkina (1971). Składa się z sześciu etapów i była próbą wyjaśnienia wcześniejszych wyników badań nad błędami mowy. Etapy Modelu Generatora Wypowiedzi opierały się na możliwych zmianach reprezentacji danej wypowiedzi. Pierwszy etap polega na tym, że osoba generuje znaczenie, które chce przekazać. Drugi etap polega na przełożeniu komunikatu na strukturę syntaktyczną. Tutaj wiadomość ma zarys. Trzeci etap zaproponowany przez Fromkina to moment, w którym przekaz zyskuje różne akcenty i intonacje w zależności od znaczenia. Czwarty etap sugerowany przez Fromkina dotyczy wyboru słów z leksykon . Po wybraniu słów w Etapie 4 komunikat przechodzi specyfikację fonologiczną. Piąty etap stosuje reguły wymowy i tworzy sylaby, które mają być wyprowadzone. Szósty i ostatni etap modelu generatora wypowiedzi Fromkina to koordynacja poleceń motorycznych niezbędnych do mowy. Tutaj cechy fonetyczne komunikatu są przesyłane do odpowiednich mięśni przewodu głosowego, aby można było wytworzyć zamierzony komunikat. Pomimo pomysłowości modelu Fromkina, badacze skrytykowali tę interpretację produkcji mowy. Chociaż model generatora wypowiedzi uwzględnia wiele niuansów i danych znalezionych w badaniach błędów mowy, naukowcy zdecydowali, że wciąż można go ulepszyć.
Model Garretta (1975)
Nowsza (niż Fromkin) próba wyjaśnienia produkcji mowy została opublikowana przez Garretta w 1975 roku. Garrett również stworzył ten model, kompilując dane o błędach mowy. Istnieje wiele elementów pokrywających się między tym modelem a modelem Fromkina, na którym został oparty, ale dodał kilka rzeczy do modelu Fromkina, które wypełniły niektóre luki wskazane przez innych badaczy. Oba modele Garretta Fromkina rozróżniają trzy poziomy - poziom konceptualny, poziom zdań i poziom motoryczny. Te trzy poziomy są wspólne dla współczesnego rozumienia produkcji mowy.
Model Della (1994)
W 1994 roku Dell zaproponował model sieci leksykalnej, który stał się fundamentalny dla zrozumienia sposobu tworzenia mowy. Ten model sieci leksykalnej próbuje symbolicznie przedstawić leksykon, a z kolei wyjaśnić, w jaki sposób ludzie wybierają słowa, które chcą stworzyć, i jak te słowa mają być zorganizowane w mowę. Model Della składał się z trzech etapów: semantyki, słów i fonemów. Słowa na najwyższym etapie modelu reprezentują kategorię semantyczną. (Na obrazku słowa reprezentujące kategorię semantyczną to zima, obuwie, stopy i śnieg reprezentują kategorie semantyczne buta i łyżwy). Drugi poziom reprezentuje słowa, które odnoszą się do kategorii semantycznej (na obrazku but i łyżwa) . A trzeci poziom reprezentuje fonemy ( informacje sylabiczne , w tym początek , samogłoski i kody).
Model Levelta (1999)
Levelt dodatkowo udoskonalił sieć leksykalną zaproponowaną przez firmę Dell. Korzystając z danych dotyczących błędów mowy, firma Levelt odtworzyła trzy poziomy w modelu firmy Dell. Warstwa pojęciowa, najwyższy i najbardziej abstrakcyjny poziom, zawiera informacje, jakie dana osoba posiada na temat idei poszczególnych koncepcji. Warstwa pojęciowa zawiera również pomysły dotyczące tego, jak pojęcia odnoszą się do siebie. W tym miejscu zachodziłaby selekcja słów, osoba wybierałaby słowa, które chce wyrazić. Następny, czyli środkowy poziom, lemat -warstwa, zawiera informacje o funkcjach składniowych poszczególnych wyrazów, w tym czasu i funkcja. Ten poziom działa w celu zachowania składni i prawidłowego umieszczenia słów w strukturze zdania, która ma sens dla mówiącego. Najniższy i ostatni poziom to warstwa formy, która podobnie jak Model Della zawiera informacje sylabiczne. Stąd informacje przechowywane na poziomie warstwy formy są wysyłane do kory ruchowej, gdzie aparat głosowy jest koordynowany w celu fizycznego wytwarzania dźwięków mowy.
Miejsca artykulacji
Fizyczna struktura ludzkiego nosa, gardła i strun głosowych pozwala na wytwarzanie wielu unikalnych dźwięków, obszary te można dalej podzielić na miejsca artykulacji . Różne dźwięki są wytwarzane w różnych obszarach, przy użyciu różnych mięśni i technik oddychania. Nasza zdolność do wykorzystania tych umiejętności do tworzenia różnych dźwięków potrzebnych do skutecznej komunikacji jest niezbędna do naszej produkcji mowy. Mowa jest czynnością psychomotoryczną. Mowa między dwojgiem ludzi jest rozmową - mogą być swobodne, oficjalne, rzeczowe lub transakcyjne, a struktura języka/gatunek narracji różni się w zależności od kontekstu. Afekt jest istotnym czynnikiem kontrolującym mowę, a objawy zakłócające pamięć w używaniu języka z powodu afektu obejmują uczucie napięcia, stany lękowe, a także objawy fizyczne, takie jak nudności. Manifestacje na poziomie języka, które wpływają, można zaobserwować w wahaniach, powtórzeniach, falstartach, niekompletności, mieszaniach składniowych itp. Trudności w sposobie artykulacji mogą przyczyniać się do trudności i przeszkód w mówieniu . Sugeruje się, że niemowlęta są zdolne do wydawania całego spektrum możliwych samogłosek i spółgłosek. IPA stworzył system rozumienia i kategoryzowania wszystkich możliwych dźwięków mowy, który zawiera informacje o sposobie powstawania dźwięku i miejscu powstawania dźwięków. Jest to niezwykle przydatne w zrozumieniu produkcji mowy, ponieważ mowę można transkrybować na podstawie dźwięków, a nie pisowni, co może wprowadzać w błąd w zależności od używanego języka. Średnie tempo mówienia mieści się w przedziale od 120 do 150 słów na minutę (wpm) i takie same są zalecane wytyczne dotyczące nagrywania audiobooków. W miarę jak ludzie przyzwyczajają się do określonego języka, tracą nie tylko zdolność wydawania określonych dźwięków mowy, ale także rozróżniania tych dźwięków.
Artykulacja
Artykulacja, często kojarzona z produkcją mowy, polega na tym, jak ludzie fizycznie wytwarzają dźwięki mowy. U osób mówiących płynnie artykulacja jest automatyczna i pozwala na wytworzenie 15 dźwięków mowy na sekundę.
Na skuteczną artykulację mowy składają się następujące elementy – płynność, złożoność, dokładność i zrozumiałość.
- Płynność: to zdolność do przekazania zamierzonej wiadomości lub wpływania na słuchacza w sposób zamierzony przez mówcę. Chociaż dokładne użycie języka jest składnikiem tej zdolności, nadmierna dbałość o dokładność może faktycznie hamować rozwój płynności. Płynność polega na konstruowaniu spójnych wypowiedzi i fragmentów wypowiedzi, odpowiadaniu i mówieniu bez zbędnego wahania (ograniczone użycie wypełniaczy, takich jak eee, no wiesz). Obejmuje również umiejętność korzystania ze strategii, takich jak uproszczenia i gesty, aby ułatwić komunikację. Płynność polega na posługiwaniu się odpowiednimi informacjami, odpowiednim słownictwem i składnią .
- Złożoność: Mowa, w której wiadomość jest przekazywana precyzyjnie. Umiejętność dostosowania przekazu lub negocjowania kontroli konwersacji w zależności od odpowiedzi słuchacza oraz stosowania form podporządkowania i klauzul adekwatnych do ról i relacji między mówcami. Obejmuje wykorzystanie wiedzy socjolingwistycznej – umiejętności wymaganych do skutecznego komunikowania się w różnych kulturach; normy, wiedza o tym, co należy powiedzieć w jakich sytuacjach i do kogo.
- Dokładność: odnosi się do stosowania właściwej i zaawansowanej gramatyki; umowa podmiot-czasownik; szyk wyrazów; i formy wyrazu (podekscytowany/ekscytujący), a także odpowiedni dobór słów w języku mówionym. Jest to również zdolność do samokorekty podczas dyskursu, doprecyzowania lub zmodyfikowania języka mówionego w celu uzyskania dokładności gramatycznej.
- Zrozumiałość: Jest to zdolność bycia rozumianym przez innych, jest związana z brzmieniem języka. Istnieją trzy składowe, które wpływają na czyjąś zrozumiałość i są to: Wymowa – poprawne wymawianie dźwięków słów; Intonacja – odpowiednie akcentowanie słów i sylab, używanie tonu wznoszącego i opadającego do wskazywania pytań lub stwierdzeń, używanie głosu do wyrażania emocji lub akcentowania, mówienie z odpowiednim rytmem; i Wypowiadanie – mówienie wyraźnie w odpowiednim tempie, z efektywną artykulacją słów i zwrotów oraz odpowiednią głośnością.
Rozwój
Jeszcze przed wydaniem dźwięku niemowlęta naśladują mimikę i ruchy twarzy. Około 7 miesiąca życia niemowlęta zaczynają eksperymentować z dźwiękami komunikacyjnymi, próbując skoordynować wytwarzanie dźwięku z otwieraniem i zamykaniem ust.
Do pierwszego roku życia niemowlęta nie potrafią wypowiadać spójnych słów, zamiast tego wydają powtarzający się bełkot . Gaworzenie pozwala niemowlęciu eksperymentować z artykułowanymi dźwiękami bez konieczności zwracania uwagi na znaczenie. To powtarzające się gaworzenie rozpoczyna początkową produkcję mowy. Gaworzenie działa z trwałością obiektu i zrozumieniem lokalizacji, aby wspierać sieci naszych pierwszych elementów leksykalnych lub słów. Rozwój słownictwa niemowlęcia znacznie wzrasta, gdy jest ono w stanie zrozumieć, że przedmioty istnieją, nawet jeśli ich nie ma.
Pierwszy etap znaczącej mowy pojawia się dopiero w wieku około jednego roku. Ten etap to faza holofrastyczna. Etap holistyczny odnosi się do sytuacji, gdy mowa niemowlęcia składa się z jednego słowa na raz (tj. papa).
Kolejnym etapem jest faza telegraficzna. Na tym etapie niemowlęta mogą tworzyć krótkie zdania (np. tato siadaj lub mama pije). Zwykle ma to miejsce w wieku od półtora do dwóch i pół roku. Ten etap jest szczególnie godny uwagi ze względu na gwałtowny wzrost ich leksykonu . Na tym etapie niemowlęta muszą wybierać i dopasowywać zapisane reprezentacje słów do określonego percepcyjnego słowa docelowego, aby przekazać znaczenie lub koncepcje. Mając wystarczającą ilość słownictwa, niemowlęta zaczynają wyodrębniać wzorce dźwiękowe i uczą się rozkładać słowa na fonologiczne segmentów, zwiększając liczbę słów, których mogą się nauczyć. W tym momencie rozwoju mowy niemowlęcia jego leksykon składa się z 200 lub więcej słów i jest ono w stanie zrozumieć nawet więcej niż mówić.
Kiedy osiągają dwa i pół roku, ich produkcja mowy staje się coraz bardziej złożona, szczególnie w jej strukturze semantycznej. Dzięki bardziej szczegółowej sieci semantycznej niemowlę uczy się wyrażać szerszy zakres znaczeń, pomagając mu rozwinąć złożony system pojęciowy lematów .
W wieku około czterech lub pięciu lat lematy dzieci mają szeroki zakres różnorodności, co pomaga im wybrać właściwy lemat potrzebny do wytworzenia poprawnej mowy. Czytanie niemowlętom wzbogaca ich leksykon. W tym wieku dzieci, którym czytano i które miały kontakt z bardziej niezwykłymi i złożonymi słowami, mają o 32 miliony więcej słów niż dziecko zubożone językowo . W tym wieku dziecko powinno być w stanie mówić pełnymi, pełnymi zdaniami, podobnie jak osoba dorosła.
Zobacz też
- FOXP2
- Rodzina KE
- Neurokomputacyjne przetwarzanie mowy
- Psycholingwistyka
- Interfejs cichej mowy
- Percepcja mowy
- Nauka mowy
Dalsza lektura
- Gow DW (czerwiec 2012). „Korowa organizacja wiedzy leksykalnej: podwójny leksykonowy model przetwarzania języka mówionego” . Mózg Lang . 121 (3): 273–88. doi : 10.1016/j.bandl.2012.03.005 . PMC 3348354 . PMID 22498237 .
- Hickok G (2012). „Korowa organizacja przetwarzania mowy: kontrola sprzężenia zwrotnego i kodowanie predykcyjne w kontekście modelu dwustrumieniowego” . J Zaburzenie społeczne . 45 (6): 393–402. doi : 10.1016/j.jcomdis.2012.06.004 . PMC 3468690 . PMID 22766458 .
- Hickok G, Houde J, Rong F (luty 2011). „Integracja sensomotoryczna w przetwarzaniu mowy: podstawy obliczeniowe i organizacja neuronowa” . neuron . 69 (3): 407–22. doi : 10.1016/j.neuron.2011.01.019 . PMC 3057382 . PMID 21315253 .
- Hickok G, Poeppel D (2004). „Strumienie grzbietowe i brzuszne: ramy dla zrozumienia aspektów funkcjonalnej anatomii języka”. poznanie . 92 (1–2): 67–99. doi : 10.1016/j.cognition.2003.10.011 . PMID 15037127 . S2CID 635860 .
- Poeppel D, Emmorey K, Hickok G, Pylkkänen L (październik 2012). „Ku nowej neurobiologii języka” . J. Neurosci . 32 (41): 14125–31. doi : 10.1523/JNEUROSCI.3244-12.2012 . PMC 3495005 . PMID 23055482 .
- Cena CJ (sierpień 2012). „Przegląd i synteza pierwszych 20 lat badań PET i fMRI słyszanej mowy, języka mówionego i czytania” . Neuroobraz . 62 (2): 816–47. doi : 10.1016/j.neuroimage.2012.04.062 . PMC 3398395 . PMID 22584224 .
- Stout D, Chaminade T (styczeń 2012). „Narzędzia kamienne, język i mózg w ewolucji człowieka” . Filoz. Trans. R. Soc. Londyn. B Biol. nauka . 367 (1585): 75–87. doi : 10.1098/rstb.2011.0099 . PMC 3223784 . PMID 22106428 .
- Kroeger BJ, Stille C, Blouw P, Bekolay T, Stewart TC (listopad 2020) „Hierarchiczne sekwencjonowanie oraz mechanizmy kontroli sprzężenia zwrotnego i sprzężenia zwrotnego w produkcji mowy: wstępne podejście do modelowania normalnej i nieuporządkowanej mowy” Frontiers in Computational Neuroscience 14:99 doi= 10.3389/fncom.2020.573554