Obwiednia czasowa i drobna struktura

Obwiednia czasowa (ENV) i subtelna struktura czasowa (TFS) to zmiany amplitudy i częstotliwości dźwięku odbieranego przez ludzi w czasie. Te zmiany czasowe są odpowiedzialne za kilka aspektów percepcji słuchowej, w tym głośność , percepcję wysokości i barwy oraz słyszenie przestrzenne .

Złożone dźwięki, takie jak mowa czy muzyka, są rozkładane przez obwodowy układ słuchowy człowieka na wąskie pasma częstotliwości. Uzyskane sygnały wąskopasmowe przenoszą informacje w różnych skalach czasowych, od mniej niż jednej milisekundy do setek milisekund. W celu zbadania kilku aspektów percepcji słuchowej ( np . ) w dwóch różnych skalach czasowych w każdym paśmie częstotliwości. W ciągu ostatnich dziesięcioleci wiele badań psychofizycznych, elektrofizjologicznych i obliczeniowych opartych na dychotomii obwiedni/drobnej struktury zbadało rolę tych bodźców czasowych w identyfikacji i komunikacji dźwięku, jak te bodźce czasowe są przetwarzane przez obwodowy i centralny układ słuchowy i skutki starzenia i uszkodzenie ślimaka w czasowym przetwarzaniu słuchowym. Chociaż dychotomia obwiedni/drobnej struktury była przedmiotem dyskusji i pozostają pytania dotyczące tego, w jaki sposób sygnały czasowej subtelnej struktury są faktycznie kodowane w układzie słuchowym, badania te doprowadziły do ​​szeregu zastosowań w różnych dziedzinach, w tym w przetwarzaniu mowy i dźwięku, audiologii klinicznej i rehabilitacja niedosłuchu czuciowo-nerwowego za pomocą aparatów słuchowych lub implantów ślimakowych .

Definicja

Wyjścia symulowanych filtrów ślimakowych wyśrodkowane przy 364, 1498 i 4803 Hz (od dołu do góry) w odpowiedzi na segment sygnału mowy, dźwięk „en” w „sens”. Te wyjścia filtra są podobne do przebiegów, które byłyby obserwowane w miejscach na błonie podstawnej dostrojonej do 364, 1498 i 4803 Hz. Dla każdej częstotliwości środkowej sygnał można uważać za wolno zmieniającą się obwiednię (EBM ) nałożoną na szybszą precyzyjną strukturę czasową (TFS BM ). Obwiednia dla każdego sygnału pasma jest pokazana grubą linią.

Pojęcia obwiedni czasowej i subtelnej struktury czasowej mogą mieć różne znaczenia w wielu badaniach. Należy dokonać ważnego rozróżnienia między fizycznym (tj. akustycznym) a biologicznym (lub percepcyjnym) opisem tych sygnałów ENV i TFS.

Schematyczne przedstawienie trzech poziomów sygnałów obwiedni czasowej (ENV) i struktury czasowej (TFS) przenoszonych przez sygnał o ograniczonym paśmie przetwarzany przez obwodowy układ słuchowy.

Każdy dźwięk, którego składowe częstotliwościowe obejmują wąski zakres (nazywany sygnałem wąskopasmowym) można uznać za obwiednię (ENV p , gdzie p oznacza sygnał fizyczny) nałożoną na szybciej oscylującą nośną, subtelną strukturę czasową (TFS p ).

Wiele dźwięków w życiu codziennym, w tym mowa i muzyka, to dźwięki szerokopasmowe; składowe częstotliwości rozciągają się w szerokim zakresie i nie ma dobrze zdefiniowanego sposobu reprezentacji sygnału w kategoriach ENV p i TFS p . Jednak w normalnie funkcjonującym ślimaku złożone sygnały szerokopasmowe są rozkładane przez filtrowanie na błonie podstawnej (BM) w ślimaku na serię sygnałów wąskopasmowych. Dlatego przebieg w każdym miejscu na BM można uznać za obwiednię (ENV BM ) nałożoną na szybciej oscylującą nośną, subtelną strukturę czasową (TFS BM ). ENV BM i TFS BM zależą od miejsca wzdłuż BM. Na końcu wierzchołkowym, który jest dostrojony do niskich częstotliwości (dźwiękowych), ENV BM i TFS BM zmieniają się stosunkowo wolno w czasie, podczas gdy na końcu podstawowym, który jest dostrojony do wysokich częstotliwości, zarówno ENV BM , jak i TFS BM zmieniają się szybciej w czasie .

Zarówno ENV BM, jak i TFS BM są reprezentowane we wzorcach czasowych potencjałów czynnościowych w nerwie słuchowym , które są oznaczone jako ENV n i TFS n . TFS n jest najbardziej widoczny w neuronach dostrojonych do niskich częstotliwości, podczas gdy ENV n jest najbardziej widoczny w neuronach dostrojonych do wysokich częstotliwości (dźwiękowych). W przypadku sygnału szerokopasmowego nie jest możliwe manipulowanie TFS p bez wpływu na ENV BM i ENV n i nie jest możliwe manipulowanie ENV p bez wpływu na TFS BM i TFS n .

Przetwarzanie obwiedni czasowej (ENV).

Aspekty neurofizjologiczne

Przykłady sygnałów modulowanych sinusoidalnie amplitudowo i częstotliwościowo

Neuronowa reprezentacja otoczki bodźca, ENVn , była zwykle badana przy użyciu dobrze kontrolowanych modulacji ENV p , czyli dźwięków o sinusoidalnej modulacji amplitudy (AM). Filtrowanie ślimakowe ogranicza zakres częstotliwości AM zakodowanych w poszczególnych nerwu słuchowego . W nerwie słuchowym siła neuronowej reprezentacji AM maleje wraz ze wzrostem szybkości modulacji. Na poziomie jądra ślimakowego kilka typów komórek wykazuje wzmocnienie ENV n Informacja. Komórki wielobiegunowe mogą pokazywać strojenie pasmowo-przepustowe do tonów AM z częstotliwościami AM między 50 a 1000 Hz. Niektóre z tych komórek wykazują doskonałą odpowiedź na ENV n i dostarczają hamujące pasma boczne innym komórkom w jądrze ślimakowym, dając fizjologiczny korelat uwalniania maskującego komodulacji, zjawisko, w którym wykrywanie sygnału w maskerze jest lepsze, gdy masker ma skorelowane fluktuacje obwiedni w poprzek częstotliwości (patrz sekcja poniżej).

Reakcje na sygnały mowy lub inne złożone dźwięki z czasowej otoczki utrzymują się wzdłuż ścieżki słuchowej, ostatecznie docierając do różnych pól kory słuchowej u wielu zwierząt. W pierwotnej korze słuchowej , odpowiedzi mogą kodować częstotliwości AM poprzez blokowanie fazy do około 20–30 Hz, podczas gdy szybsze szybkości wywołują trwałe i często dostrojone odpowiedzi. Topograficzną reprezentację częstotliwości AM wykazano w pierwotnej korze słuchowej obudzonych makaków. Ta reprezentacja jest w przybliżeniu prostopadła do osi gradientu tonotopowego, zgodnie z ortogonalną organizacją cech widmowych i czasowych w korze słuchowej. Połączenie tych czasowych odpowiedzi z spektralną selektywnością neuronów A1 powoduje powstanie spektro-czasowych pól receptywnych które często dobrze wychwytują reakcje korowe na złożone modulowane dźwięki. W drugorzędowych polach kory słuchowej reakcje stają się czasowo wolniejsze i spektralnie szersze, ale nadal są w stanie zsynchronizować się fazowo z najistotniejszymi cechami mowy i dźwięków muzycznych. Dostrajanie się do częstotliwości AM poniżej około 64 Hz występuje również w korze słuchowej człowieka, jak wykazano za pomocą technik obrazowania mózgu ( fMRI ) i zapisów korowych u pacjentów z padaczką ( elektrokortykografia ). Jest to zgodne z badaniami neuropsychologicznymi pacjentów z uszkodzonym mózgiem oraz z poglądem, że ośrodkowy układ słuchowy dokonuje jakiejś formy spektralnego rozkładu ENV p nadchodzących dźwięków. Wykazano, że zakresy, w których reakcje korowe dobrze kodują sygnały mowy w otoczce czasowej, przewidują ludzką zdolność rozumienia mowy. W ludzkim górnym zakręcie skroniowym (STG) stwierdzono przednio-tylną organizację przestrzenną strojenia modulacji spektro-czasowej w odpowiedzi na dźwięki mowy, przy czym tylny STG jest dostrojony do szybko zmieniających się w czasie dźwięków mowy z niskimi modulacjami widmowymi i przedni STG dostrojony do wolno zmieniających się czasowo dźwięków mowy z wysokimi modulacjami widmowymi.

Jeden nieoczekiwany aspekt blokowania fazy w korze słuchowej zaobserwowano w odpowiedziach wywołanych przez złożone bodźce akustyczne ze spektrogramami, które wykazują stosunkowo wolne obwiednie (<20 Hz), ale które są przenoszone przez szybkie modulacje, które sięgają setek herców. Taką strukturę czasową mają mowa i muzyka, a także różne modulowane bodźce dźwiękowe. W przypadku tych bodźców reakcje korowe są zsynchronizowane fazowo z obydwoma obwiednia i subtelna struktura wywołana interakcjami między nierozwiązanymi harmonicznymi dźwięku, odzwierciedlając w ten sposób wysokość dźwięku i przekraczając typowe dolne granice korowego synchronizacji fazowej do obwiedni kilku dziesiątek herców. Ta paradoksalna zależność między powolnym i szybkim korowym blokowaniem fazowym do „delikatnej struktury” nośnika została wykazana zarówno w korze słuchowej, jak i wzrokowej. Wykazano również, że jest to szeroko widoczne w pomiarach spektro-czasowych pól receptywnych pierwotnej kory słuchowej, co daje im nieoczekiwanie wysoką dokładność czasową i selektywność graniczącą z rozdzielczością 5-10 ms. Przyczyny leżące u podstaw tego zjawiska przypisano kilku możliwym źródłom, w tym nieliniowej depresji i toracji synaptycznej i / lub korowej sieci pobudzenia wzgórza i hamowania kory. Istnieje wiele funkcjonalnie istotnych i percepcyjnie istotnych powodów współistnienia tych dwóch uzupełniających się dynamicznych trybów odpowiedzi. Obejmują one zdolność dokładnego kodowania początków i innych szybkich „zdarzeń” w ENV p złożonych sygnałów akustycznych i innych sygnałów sensorycznych, cech krytycznych dla percepcji spółgłosek (mowa) i dźwięków perkusyjnych (muzyka), a także faktury złożonych dźwięków.

Aspekty psychoakustyczne

Percepcja ENV p zależy od tego, jakie stawki AM są zawarte w sygnale. Niskie częstotliwości AM, w zakresie 1–8 Hz, są postrzegane jako zmiany postrzeganej intensywności, czyli fluktuacji głośności (percept, który można również wywołać za pomocą modulacji częstotliwości, FM); przy wyższych częstotliwościach AM jest postrzegane jako chropowatość, przy czym największe wrażenie chropowatości występuje przy około 70 Hz; przy jeszcze wyższych szybkościach AM może wywołać percept słabego tonu odpowiadający szybkości modulacji. Ulewne deszcze, trzaskający ogień, ćwierkające świerszcze lub galopujące konie wytwarzają „tekstury dźwiękowe” – zbiorczy efekt wielu podobnych zdarzeń akustycznych – w których percepcji pośredniczy ENV n statystyki.

Próg wykrywania słuchowego dla AM jako funkcja częstotliwości AM, określany jako funkcja transferu modulacji czasowej (TMTF), jest najlepszy dla częstotliwości AM w zakresie od 4 do 150 Hz i pogarsza się poza tym zakresem. Częstotliwość graniczna TMTF daje oszacowanie ostrości czasowej (rozdzielczość czasowa) dla układu słuchowego. Ta częstotliwość odcięcia odpowiada stałej czasowej około 1 - 3 ms dla układu słuchowego człowieka normalnie słyszącego.

Skorelowane fluktuacje obwiedni w zakresie częstotliwości w maskerze mogą pomóc w wykryciu sygnału czystego tonu, efekt znany jako zwolnienie maskowania komodulacji.

AM zastosowany do danej nośnej może percepcyjnie zakłócać wykrywanie docelowego AM nałożonego na tę samą nośną, efekt nazywany maskowaniem modulacji . Wzorce maskowania modulacji są dostrojone (większe maskowanie występuje w przypadku maskowania, a docelowe AM są bliskie szybkości modulacji), co sugeruje, że ludzki układ słuchowy jest wyposażony w kanały selektywne pod względem częstotliwości dla AM. Co więcej, AM zastosowane do widmowo odległych nośnych może percepcyjnie zakłócać wykrywanie AM na dźwięku docelowym, efekt nazywany interferencją wykrywania modulacji . Pojęcie kanałów modulacji jest również poparte demonstracją selektywnych efektów adaptacyjnych w domenie modulacji. Badania te pokazują, że progi wykrywania AM są selektywnie podwyższone powyżej progów przed ekspozycją, gdy częstotliwość nośna i szybkość AM adaptera są podobne do częstotliwości tonu testowego.

Ludzcy słuchacze są wrażliwi na stosunkowo powolne sygnały AM „drugiego rzędu”, odpowiadające fluktuacjom siły AM. Te wskazówki wynikają z interakcji różnych szybkości modulacji, wcześniej opisanych jako „dudnienie” w domenie częstotliwości obwiedni. Percepcja AM drugiego rzędu została zinterpretowana jako wynikająca z nieliniowych mechanizmów w ścieżce słuchowej, które wytwarzają słyszalny składnik zniekształcenia przy częstotliwości dudnienia obwiedni w wewnętrznym spektrum modulacji dźwięków.

Międzyuszne różnice czasowe w obwiedni zapewniają obuuszne wskazówki nawet przy wysokich częstotliwościach, gdzie nie można użyć TFS n .

Modele normalnego przetwarzania kopert

Schemat części wspólnej modelu percepcji obwiedniowej Torstena Dau i EPSM.

Najbardziej podstawowym komputerowym modelem przetwarzania ENV jest model nieszczelnego integratora . Model ten wyodrębnia obwiednię czasową dźwięku (ENV p ) poprzez filtrowanie środkowoprzepustowe, prostowanie półfalowe (po którym może następować szybko działająca kompresja amplitudy ) i filtrowanie dolnoprzepustowe z częstotliwością odcięcia między około 60 a 150 Hz. Nieszczelny integrator jest często używany ze statystyką decyzyjną opartą na wynikowej mocy obwiedni, stosunku maks./min. lub współczynniku szczytu. Model ten uwzględnia utratę wrażliwości słuchowej dla częstotliwości AM wyższych niż około 60–150 Hz dla szerokopasmowych nośników szumu. Oparty na koncepcji selektywności częstotliwości dla AM, model percepcji Torstena Dau obejmuje szeroko dostrojone filtry modulacji pasma (z Wartość Q około 1) w celu uwzględnienia danych z szerokiej gamy zadań psychoakustycznych, a zwłaszcza wykrywania AM dla nośników hałasu o różnych szerokościach pasma, biorąc pod uwagę ich wewnętrzne fluktuacje obwiedni. Ten model został rozszerzony, aby uwzględnić uwalnianie maskowania komodulacji (patrz sekcje powyżej). Kształty filtrów modulacji zostały oszacowane, a „model widma mocy obwiedni” (EPSM) oparty na tych filtrach może uwzględniać wzorce maskowania AM i dyskryminację głębokości AM. EPSM został rozszerzony o przewidywanie zrozumiałości mowy i uwzględnienie danych z szerokiej gamy zadań psychoakustycznych. Opracowano również oparty na fizjologii model przetwarzania symulujący reakcje pnia mózgu, aby uwzględnić wzorce wykrywania AM i maskowania AM.

Przetwarzanie dokładnej struktury czasowej (TFS).

Aspekty neurofizjologiczne

Blokada fazowa zarejestrowana z neuronu w jądrze ślimakowym w odpowiedzi na sinusoidalny bodziec akustyczny przy najlepszej częstotliwości komórki (w tym przypadku 240 Hz). Bodziec był o około 20 dB wyższy od najlepszej częstotliwości neuronu. Wyjścia nerwowe (potencjały czynnościowe) są pokazane na górnym śladzie, a przebieg bodźca na dolnym śladzie.

Neuronowa reprezentacja subtelnej struktury czasowej, TFS n , została zbadana przy użyciu bodźców z dobrze kontrolowanym TFS p : tony czyste, tony harmoniczne złożone i tony o modulowanej częstotliwości (FM).

Włókna nerwu słuchowego są w stanie reprezentować dźwięki o niskiej częstotliwości poprzez wyładowania fazowe (tj. informację TFS n ). Górna granica częstotliwości blokowania fazy zależy od gatunku. Jest to około 5 kHz u kota, 9 kHz u płomykówki i tylko 4 kHz u świnki morskiej. Nie znamy górnej granicy synchronizacji fazowej u ludzi, ale obecne, pośrednie szacunki sugerują, że wynosi ona około 4–5 kHz. Blokowanie fazy jest bezpośrednią konsekwencją transdukcji proces ze wzrostem prawdopodobieństwa otwarcia kanałów transdukcji zachodzącym wraz z rozciągnięciem stereocilia i zmniejszeniem otwarcia kanałów zachodzącym przy pchnięciu w przeciwnym kierunku. Doprowadziło to niektórych do sugestii, że blokowanie faz jest epifenomenem. Wydaje się, że górna granica jest określona przez kaskadę filtrów dolnoprzepustowych na poziomie wewnętrznej komórki rzęsatej i synapsy nerwu słuchowego .

TFS n w nerwie słuchowym może być wykorzystana do kodowania częstotliwości (dźwiękowej) dźwięków o niskiej częstotliwości, w tym pojedynczych tonów i bardziej złożonych bodźców, takich jak tony o modulowanej częstotliwości lub samogłoski w stanie ustalonym (patrz rola i zastosowania w mowie i muzyce ).

Układ słuchowy dokłada wszelkich starań, aby zachować tę informację TFS n dzięki obecności gigantycznych synaps (cebulek końcowych Helda) w jądrze ślimaka brzusznego . Synapsy te kontaktują się z krzaczastymi komórkami (kulistymi i kulistymi) i wiernie przekazują (lub wzmacniają) informacje czasowe obecne we włóknach nerwu słuchowego do wyższych struktur w pniu mózgu . Komórki krzaczaste wystają do przyśrodkowej górnej oliwki, a komórki kuliste wystają do przyśrodkowego jądra ciała trapezowego (MNTB). MNTB charakteryzuje się również gigantycznymi synapsami (kielichami Helda) i zapewnia precyzyjnie zaplanowane hamowanie bocznej górnej oliwki . Środkowa i boczna górna oliwka i MNTB są zaangażowane w kodowanie międzyusznych różnic w czasie i intensywności. Istnieje powszechna akceptacja, że ​​informacje czasowe mają kluczowe znaczenie w lokalizacji dźwięku, ale nadal jest sporne, czy te same informacje czasowe są używane do kodowania częstotliwości złożonych dźwięków.

Pozostaje kilka problemów związanych z ideą, że TFS n jest ważny w reprezentacji składowych częstotliwości złożonych dźwięków. Pierwszy problem polega na tym, że informacja czasowa pogarsza się, gdy przechodzi przez kolejne etapy drogi słuchowej (prawdopodobnie z powodu dolnoprzepustowego filtrowania dendrytycznego). Dlatego drugi problem polega na tym, że informacje czasowe muszą być wydobywane na wczesnym etapie drogi słuchowej. Obecnie nie zidentyfikowano takiego etapu, chociaż istnieją teorie na temat tego, jak informacje czasowe mogą zostać przekształcone w informacje o szybkości (patrz sekcja Modele normalnego przetwarzania: ograniczenia ).

Aspekty psychoakustyczne

Często przyjmuje się, że wiele zdolności percepcyjnych opiera się na zdolności jedno- i dwuusznego układu słuchowego do kodowania i wykorzystywania sygnałów TFS n wywoływanych przez składowe dźwięków o częstotliwościach poniżej około 1–4 kHz. Zdolności te obejmują rozróżnianie częstotliwości, rozróżnianie częstotliwości podstawowej dźwięków harmonicznych, wykrywanie FM przy częstotliwościach poniżej 5 Hz, rozpoznawanie melodii dla sekwencji tonów czystych i tonów złożonych, lateralizację i lokalizację tonów czystych i tonów złożonych oraz segregację współbieżnych tonów. dźwięki harmoniczne (takie jak dźwięki mowy). Wydaje się, że sygnały TFS n wymagają poprawnej tonotopii ( miejsce ) reprezentację, która ma być optymalnie przetworzona przez system słuchowy. Ponadto zademonstrowano percepcję tonu muzycznego dla tonów złożonych ze wszystkimi harmonicznymi powyżej 6 kHz, wykazując, że nie jest ona całkowicie zależna od neuronowego blokowania fazowego sygnałów TFS BM (tj. TFS n ).

Jeśli chodzi o wykrywanie FM, obecny pogląd zakłada, że ​​w normalnym układzie słuchowym FM jest kodowany za pomocą sygnałów TFS n , gdy częstotliwość FM jest niska (<5 Hz) i gdy częstotliwość nośna jest poniżej około 4 kHz, oraz za pomocą sygnałów ENV n gdy FM jest szybkie lub gdy częstotliwość nośna jest wyższa niż 4 kHz. Potwierdzają to zapisy pojedynczych jednostek w dolnym pniu mózgu. Zgodnie z tym poglądem, sygnały TFS n nie są używane do wykrywania FM z częstotliwościami powyżej około 10 Hz, ponieważ mechanizm dekodujący TFS n informacje są „powolne” i nie mogą śledzić szybkich zmian częstotliwości. Kilka badań wykazało, że wrażliwość słuchowa na powolne FM przy niskiej częstotliwości nośnej jest związana z identyfikacją mowy zarówno u osób z prawidłowym słuchem, jak i u osób niedosłyszących, gdy odbiór mowy jest ograniczony przez degradację akustyczną (np. filtrowanie) lub jednoczesne dźwięki mowy. Sugeruje to, że solidna zrozumiałość mowy jest określana przez dokładne przetwarzanie sygnałów TFS n .

Modele normalnego przetwarzania: ograniczenia

Rozdzielenie dźwięku na ENV p i TFS p wydaje się częściowo inspirowane sposobem syntezy dźwięków oraz dostępnością wygodnego sposobu rozdzielenia istniejącego dźwięku na ENV i TFS, a mianowicie transformacją Hilberta . Istnieje ryzyko, że ten pogląd na przetwarzanie słuchowe jest zdominowany przez te fizyczne/techniczne koncepcje, podobnie jak mapowanie częstotliwości do miejsca w ślimaku było przez długi czas konceptualizowane w kategoriach transformaty Fouriera . Fizjologicznie nic nie wskazuje na separację ENV i TFS w układzie słuchowym dla etapów do jądro ślimakowe . Dopiero na tym etapie wydaje się, że równoległe ścieżki, potencjalnie wzmacniające informacje ENV n lub TFS n (lub coś podobnego), mogą zostać zaimplementowane poprzez charakterystykę odpowiedzi czasowej różnych typów komórek jądra ślimakowego. Dlatego może być przydatne lepsze symulowanie typów komórek jądra ślimaka, aby zrozumieć prawdziwe koncepcje przetwarzania równoległego utworzonego na poziomie jądra ślimaka. Koncepcje te mogą być związane z oddzieleniem ENV i TFS, ale jest mało prawdopodobne, aby zostały zrealizowane jak transformata Hilberta.

Model obliczeniowy obwodowego układu słuchowego może być wykorzystany do symulacji odpowiedzi włókien nerwu słuchowego na złożone dźwięki, takie jak mowa, i ilościowego określenia transmisji (tj. reprezentacji wewnętrznej) sygnałów ENVn i TFSn . W dwóch badaniach symulacyjnych informacje o średniej szybkości i czasie skoku określono ilościowo na wyjściu takiego modelu, aby scharakteryzować odpowiednio krótkoterminową szybkość odpalania neuronów (ENV n ) i poziom synchronizacji z powodu blokowania fazy ( TFS n ) w odpowiedzi na dźwięki mowy zdegradowane przez wokodery. Najlepsze prognozy modelowe dotyczące zrozumiałości mowy w kodowaniu mowy zostały znalezione, gdy uwzględniono zarówno sygnały ENV n, jak i TFS n , dostarczając dowodów na to, że sygnały TFS n są ważne dla zrozumiałości, gdy sygnały ENV mowy zdegradowane.

Na bardziej podstawowym poziomie podobne modelowanie obliczeniowe zostało wykorzystane do wykazania, że ​​funkcjonalna zależność ludzkich zaledwie zauważalnych różnic częstotliwości od częstotliwości czystego tonu nie została uwzględniona, chyba że uwzględniono informacje czasowe (szczególnie dla średnich i wysokich częstotliwości, nawet powyżej nominalnego odcięcia w fizjologicznej blokadzie fazy). Jednak zastrzeżeniem większości modeli TFS jest to, że optymalna wydajność modelu z informacjami czasowymi zazwyczaj przeszacowuje wydajność człowieka.

Alternatywnym poglądem jest założenie, że informacja TFSn na poziomie nerwu słuchowego jest przekształcana w informację o szybkości (ENVn ) na późniejszym etapie układu słuchowego (np. w dolnym pniu mózgu). W kilku badaniach modelowania zaproponowano, że neuronowe mechanizmy dekodowania TFS n opierają się na korelacji wyników sąsiednich miejsc.

Rola w percepcji mowy i muzyki

Rola obwiedni czasowej w percepcji mowy i muzyki

Widma modulacji amplitudy (po lewej) i widma modulacji częstotliwości (po prawej), obliczone na podstawie zbioru zdań w języku angielskim lub francuskim.

ENV p odgrywa kluczową rolę w wielu aspektach percepcji słuchowej, w tym w percepcji mowy i muzyki. Rozpoznawanie mowy jest możliwe przy użyciu wskazówek związanych z ENV p , nawet w sytuacjach, w których oryginalne informacje widmowe i TFS p są bardzo zdegradowane. Rzeczywiście, kiedy widmowo lokalny TFS p z jednego zdania jest połączony z ENV p z drugiego zdania, słychać tylko słowa drugiego zdania. ENV str najważniejsze dla mowy są stawki poniżej około 16 Hz, odpowiadające fluktuacjom tempa sylab. Z drugiej strony częstotliwości podstawowej („ wysokość ”) dźwięków mowy jest przekazywany przede wszystkim za pomocą sygnałów TFS , chociaż niektóre informacje na temat konturu mogą być odbierane za pomocą szybkich fluktuacji obwiedni odpowiadających częstotliwości podstawowej. W przypadku muzyki powolne prędkości ENV p przekazują informacje o rytmie i tempie, podczas gdy szybsze szybkości przekazują właściwości początku i końca dźwięku (odpowiednio atak i wybrzmienie), które są ważne dla percepcji barwy.

Rola TFS w percepcji mowy i muzyki

, że zdolność do dokładnego przetwarzania informacji TFS p odgrywa rolę w naszym postrzeganiu wysokości tonu (tj. szum.

Rola TFS w postrzeganiu wysokości dźwięku

Chociaż mechanizmy wyszukiwania wysokości tonu w układzie słuchowym są nadal przedmiotem dyskusji, informacja TFS n może być wykorzystana do odzyskania wysokości tonu czystych tonów o niskiej częstotliwości i oszacowania poszczególnych częstotliwości harmonicznych o niskich numerach (ok. 1-8). złożony dźwięk, częstotliwości, z których można uzyskać podstawową częstotliwość dźwięku zgodnie z np. modelami dopasowywania wzorców percepcji wysokości tonu. Rola TFS n Zasugerowano również informacje w percepcji tonu złożonych dźwięków zawierających pośrednie harmoniczne (ok. 7-16), które można wytłumaczyć czasowymi lub spektrotemporalnymi modelami percepcji tonu. Zdegradowane sygnały TFS n przenoszone przez urządzenia z implantem ślimakowym mogą być również częściowo odpowiedzialne za upośledzoną percepcję muzyki u osób z implantem ślimakowym.

Rola wskazówek TFS w percepcji mowy

sygnały TFS są ważne dla identyfikacji mówców i identyfikacji tonów w językach tonalnych . Ponadto kilka nad wokoderami sugeruje, że sygnały TFS przyczyniają się do zrozumiałości mowy w ciszy i hałasie. Chociaż trudno jest wyizolować TFS p od sygnałów ENV , istnieją dowody z badań przeprowadzonych na słuchaczach z uszkodzonym słuchem, że percepcję mowy w obecności szumu tła można częściowo wytłumaczyć zdolnością do dokładnego przetwarzania TFS p , chociaż zdolność „nasłuchiwania spadków” fluktuujących masek nie wydaje się zależeć od okresowych impulsów TFS .

Rola w percepcji dźwięków środowiskowych

Dźwięki środowiskowe można ogólnie zdefiniować jako dźwięki niemowe i niemuzyczne w otoczeniu słuchacza, które mogą przekazywać znaczące informacje o otaczających przedmiotach i wydarzeniach. Dźwięki środowiskowe są wysoce niejednorodne pod względem właściwości akustycznych i typów źródeł i mogą obejmować odgłosy ludzi i zwierząt, zdarzenia związane z wodą i pogodą, mechaniczne i elektroniczne dźwięki sygnalizacyjne. Biorąc pod uwagę dużą różnorodność źródeł dźwięku, z których powstają dźwięki otoczenia, zarówno ENV p, jak i TFS p odgrywają ważną rolę w ich postrzeganiu. Jednak względny wkład ENV p i TFS p może się znacznie różnić dla określonych dźwięków otoczenia. Znajduje to odzwierciedlenie w różnorodności miar akustycznych, które korelują z różnymi cechami percepcyjnymi obiektów i zdarzeń.

Wczesne badania podkreśliły znaczenie wzorców czasowych opartych na obwiedniach w postrzeganiu zdarzeń środowiskowych. Na przykład Warren i Verbrugge wykazali, że skonstruowane dźwięki szklanej butelki upuszczonej na podłogę były postrzegane jako odbijające się, gdy obszary o wysokiej energii w czterech różnych pasmach częstotliwości były wyrównane w czasie, wytwarzając piki amplitudy w obwiedni. W przeciwieństwie do tego, gdy ta sama energia widmowa została rozłożona losowo w pasmach, dźwięki były słyszalne jako łamiące się. Nowsze badania z wykorzystaniem symulacji wokodera przetwarzania implantu ślimakowego wykazały, że wiele dźwięków o wzorach czasowych można odbierać przy niewielkiej ilości oryginalnych informacji widmowych, opartych głównie na sygnałach czasowych. Dźwięki takie jak kroki, galop koni, przelatujący helikopter, gra w ping-ponga, klaskanie, pisanie na klawiaturze zostały zidentyfikowane z dużą dokładnością 70% i więcej za pomocą jednego kanału szumu szerokopasmowego o modulacji obwiedniowej lub tylko za pomocą dwóch kanałów częstotliwości. W tych badaniach miary akustyczne oparte na obwiedni, takie jak liczba wybuchów i pików w obwiedni, przewidywały zdolności słuchaczy do identyfikacji dźwięków w oparciu głównie o ENV p . Z drugiej strony identyfikacja krótkich dźwięków środowiskowych bez silnego wzorca czasowego w ENV p może wymagać dostrzeżenia znacznie większej liczby kanałów częstotliwości. Dźwięki takie jak klakson samochodowy czy gwizd pociągu były słabo rozpoznawane nawet przy aż 32 kanałach częstotliwości. Słuchacze z implantami ślimakowymi, które przekazują informacje obwiedniowe dla określonych pasm częstotliwości, ale nie transmitują TFS p , mają znacznie ograniczone możliwości identyfikacji typowych dźwięków otoczenia.

Ponadto poszczególne dźwięki otoczenia są zwykle słyszane w kontekście większych scen dźwiękowych, w których dźwięki z wielu źródeł mogą nakładać się w czasie i częstotliwości. W przypadku słyszenia w scenie dźwiękowej dokładna identyfikacja poszczególnych dźwięków środowiskowych jest uzależniona od możliwości oddzielenia ich od innych źródeł dźwięku lub strumieni dźwiękowych w scenie dźwiękowej, co wiąże się z dalszym poleganiem na sygnałach ENV p i TFS ( patrz Rola w scenie dźwiękowej analiza ).

Rola w analizie sceny dźwiękowej

Analiza sceny słuchowej odnosi się do zdolności do oddzielnego postrzegania dźwięków pochodzących z różnych źródeł. Każda różnica akustyczna może potencjalnie prowadzić do segregacji słuchowej, więc wszelkie wskazówki oparte na ENV p lub TFS p mogą pomóc w segregacji konkurencyjnych źródeł dźwięku. Takie wskazówki obejmują percepty, takie jak ton. Obuuszne sygnały TFS generujące międzyuszne różnice czasowe nie zawsze skutkowały wyraźną segregacją źródeł, szczególnie w przypadku źródeł prezentowanych jednocześnie, chociaż odnotowano udaną segregację kolejnych dźwięków, takich jak hałas lub mowa.

Wpływ wieku i utraty słuchu na przetwarzanie obwiedni czasowej

Aspekty rozwojowe

W okresie niemowlęcym behawioralne progi wykrywania AM oraz progi maskowania do przodu lub do tyłu obserwowane u 3-miesięcznych dzieci są podobne do obserwowanych u dorosłych. Badania elektrofizjologiczne przeprowadzone na 1-miesięcznych niemowlętach przy użyciu czystych tonów AM o częstotliwości 2000 Hz wskazują na pewną niedojrzałość otoczki po odpowiedzi (EFR). Chociaż śpiące niemowlęta i uśpione osoby dorosłe wykazują ten sam wpływ wskaźnika modulacji na EFR, szacunki niemowląt były generalnie gorsze niż u dorosłych. Jest to zgodne z badaniami behawioralnymi przeprowadzonymi na dzieciach w wieku szkolnym, wykazującymi różnice w progach wykrywania AM w porównaniu z dorosłymi. Dzieci systematycznie wykazują gorsze progi wykrywania AM niż dorośli do 10–11 lat. Jednak kształt TMTF (odcięcia) jest podobny do kształtu dorosłych dla młodszych dzieci w wieku 5 lat. Czynniki czuciowe i pozazmysłowe dla tego długiego dojrzewania są nadal przedmiotem dyskusji, ale ogólnie wydaje się, że wyniki są bardziej zależne od zadania lub złożoności dźwięku w przypadku niemowląt i dzieci niż w przypadku dorosłych. Jeśli chodzi o rozwój mowy ENV p , badania wokoderów sugerują, że niemowlęta w wieku 3 miesięcy są w stanie rozróżnić zmianę spółgłosek, gdy zachowana jest szybsza informacja ENV p sylab (< 256 Hz), ale mniej, gdy dostępna jest tylko najwolniejsza ENV p (< 8 Hz). Starsze dzieci w wieku 5 lat wykazują podobne zdolności do rozróżniania zmian spółgłoskowych na podstawie wskaźników ENV ( < 64 Hz).

Aspekty neurofizjologiczne

, że wpływ utraty słuchu i wieku na kodowanie nerwowe jest mniejszy w przypadku wolno zmieniających się odpowiedzi obwiedniowych (tj. ENVn ) niż w przypadku szybkozmiennych subtelnych struktur czasowych (tj. TFSn ) . Wzmocnione kodowanie ENV n po utracie słuchu spowodowanej hałasem zaobserwowano w obwodowych reakcjach słuchowych z pojedynczych neuronów oraz w centralnych odpowiedziach wywołanych z słuchowego śródmózgowia. Wzmocnienie w ENV n kodowanie dźwięków wąskopasmowych zachodzi w pełnym zakresie częstotliwości modulacji kodowanych przez pojedyncze neurony. W przypadku dźwięków szerokopasmowych zakres częstotliwości modulacji zakodowanych w zaburzonych odpowiedziach jest szerszy niż normalnie (rozciągający się do wyższych częstotliwości), jak można oczekiwać na podstawie zmniejszonej selektywności częstotliwościowej związanej z dysfunkcją zewnętrznych komórek rzęsatych. Wzmocnienie obserwowane w odpowiedziach otoczki nerwowej jest zgodne ze zwiększoną percepcją słuchową modulacji po uszkodzeniu ślimaka, co powszechnie uważa się za wynik utraty kompresji ślimaka, która występuje z dysfunkcją zewnętrznych komórek rzęsatych z powodu wieku lub nadmiernej ekspozycji na hałas. Jednak wpływ dysfunkcji wewnętrznych komórek rzęsatych (np. płytszy wzrost odpowiedzi w przypadku łagodnych i umiarkowanych uszkodzeń i bardziej stromy wzrost w przypadku poważnych uszkodzeń) może zakłócić wpływ dysfunkcji zewnętrznych komórek rzęsatych na ogólny wzrost odpowiedzi, a tym samym ENV kodowanie . Zatem nie jest zaskakujące, że względne skutki dysfunkcji zewnętrznych i wewnętrznych komórek rzęsatych zostały przewidziane za pomocą modelowania w celu stworzenia indywidualnych różnic w zrozumiałości mowy w oparciu o siłę kodowania obwiedni mowy w stosunku do hałasu.

Aspekty psychoakustyczne

Dla nośnych sinusoidalnych, które nie mają fluktuacji wewnętrznej obwiedni (ENVp ) , TMTF jest z grubsza płaski dla częstotliwości AM od 10 do 120 Hz, ale wzrasta (tj. próg się pogarsza) dla wyższych częstotliwości AM, pod warunkiem, że widmowe pasma boczne nie są słyszalne. Kształt TMTF dla nośników sinusoidalnych jest podobny dla młodych i starszych osób z normalnymi progami audiometrycznymi, ale osoby starsze mają ogólnie wyższe progi wykrywalności, co sugeruje gorszą „skuteczność wykrywania” dla ENV n sygnały u osób starszych. Pod warunkiem, że nośnik jest w pełni słyszalny, ubytek słuchu ślimakowy zwykle nie wpływa negatywnie na zdolność wykrywania AM i czasami może być lepsza niż normalnie, zarówno w przypadku nośników szumu, jak i nośników sinusoidalnych, być może z powodu rekrutacji głośności (nienormalnie szybki wzrost głośności z zwiększając poziom dźwięku) „powiększa” postrzeganą ilość AM (tj. ENV n wskazówki). Zgodnie z tym, gdy AM jest wyraźnie słyszalne, dźwięk o stałej głębokości AM wydaje się wahać bardziej dla ucha upośledzonego niż dla ucha normalnego. Jednak zdolność wykrywania zmian głębokości AM może być osłabiona przez ślimakowy ubytek słuchu. Mowa, która jest przetwarzana za pomocą wokodera szumowego, w taki sposób, że głównie informacje obwiedni są dostarczane w wielu kanałach widmowych, została również wykorzystana do badania przetwarzania obwiedni w przypadku upośledzenia słuchu. W tym przypadku osoby niedosłyszące nie mogły wykorzystać takich informacji z koperty tak dobrze, jak osoby normalnie słyszące, nawet po uwzględnieniu czynników słyszalności. Dodatkowe eksperymenty sugerują, że wiek negatywnie wpływa na obuuszne przetwarzanie ENV p przynajmniej przy niskich częstotliwościach audio.

Modele upośledzonego przetwarzania obwiedni czasowej

Model percepcji przetwarzania ENV, który obejmuje selektywne (pasmowo-przepustowe) filtry AM, odpowiada za wiele percepcyjnych konsekwencji dysfunkcji ślimaka, w tym zwiększoną wrażliwość na AM dla nośników sinusoidalnych i szumów, nieprawidłowe maskowanie w przód (tempo odzyskiwania z maskowania w przód jest generalnie wolniejsze niż normalnie dla upośledzonych słuchaczy), silniejsze efekty interferencji między AM i FM oraz zwiększona czasowa integracja AM. Model Torstena Dau został rozszerzony, aby uwzględnić dyskryminację złożonych wzorców AM przez osoby z uszkodzonym słuchem oraz efekty systemów redukcji szumów. Wydajność osób niedosłyszących najlepiej uchwycono, gdy model łączył utratę kompresji amplitudy obwodowej wynikającą z utraty aktywnego mechanizmu w ślimaku ze wzrostem wewnętrznego szumu w domenie ENVn. Modele fenomenologiczne symulujące reakcję obwodowego układu słuchowego wykazały, że upośledzoną czułość AM u osób z przewlekłym szumem w uszach z klinicznie prawidłowymi audiogramami można przewidzieć na podstawie znacznej utraty włókien nerwu słuchowego przy niskich częstościach spontanicznych i pewnej utraty włókien nerwu słuchowego przy wysokiej stawki spontaniczne.

Wpływ wieku i utraty słuchu na przetwarzanie TFS

Aspekty rozwojowe

Bardzo niewiele badań systematycznie oceniało przetwarzanie TFS u niemowląt i dzieci. Reakcja podążania za częstotliwością (FFR), o której uważa się, że odzwierciedla aktywność neuronów z blokadą fazową, wydaje się być podobna do reakcji dorosłych u 1-miesięcznych niemowląt, gdy używa się czystego tonu (wyśrodkowanego na 500, 1000 lub 2000 Hz) modulowanego przy 80 Hz z 100% głębokości modulacji.

Jeśli chodzi o dane behawioralne, sześciomiesięczne niemowlęta wymagają większych przejść częstotliwości, aby wykryć zmianę FM w tonie 1 kHz w porównaniu z dorosłymi. Jednak 4-miesięczne niemowlęta są w stanie rozróżnić dwa różne przebiegi FM i są bardziej wrażliwe na sygnały FM przemiatane od 150 Hz do 550 Hz niż przy niższych częstotliwościach. U dzieci w wieku szkolnym skuteczność wykrywania zmian FM poprawia się między 6 a 10 rokiem życia, a wrażliwość na niską częstotliwość modulacji (2 Hz) jest słaba do 9 roku życia.

W przypadku dźwięków mowy tylko jedno badanie wokodera zbadało zdolność dzieci w wieku szkolnym do polegania na sygnałach TFSp w celu wykrycia zmian spółgłosek, wykazując te same zdolności u 5-latków niż u dorosłych.

Aspekty neurofizjologiczne

Badania psychofizyczne sugerują, że upośledzone przetwarzanie TFS z powodu wieku i utraty słuchu może leżeć u podstaw niektórych deficytów nadprogowych, takich jak percepcja mowy; jednak pozostaje debata na temat podstawowych korelatów neuronowych. Siła synchronizacji fazowej z subtelną strukturą czasową sygnałów (TFS n ) w warunkach cichego słuchania pozostaje normalna w odpowiedziach pojedynczego neuronu obwodowego po ubytku słuchu ślimaka. Chociaż dane te sugerują, że podstawowa zdolność włókien nerwu słuchowego do podążania za szybkimi fluktuacjami dźwięku pozostaje nienaruszona po utracie słuchu ślimakowego, deficyty siły blokowania fazy pojawiają się w hałasie tła. To odkrycie, które jest zgodne z powszechną obserwacją, że słuchacze z ubytkiem słuchu ślimaka mają większe trudności w hałaśliwych warunkach, wynika ze zmniejszonej selektywności częstotliwości ślimaka związanej z dysfunkcją zewnętrznych komórek rzęsatych. Chociaż zaobserwowano jedynie ograniczony wpływ wieku i utraty słuchu na TFS n siła kodowania dźwięków wąskopasmowych, zaobserwowano bardziej dramatyczne deficyty w jakości kodowania TFS n w odpowiedzi na dźwięki szerokopasmowe, które są bardziej odpowiednie do codziennego słuchania. Dramatyczna utrata tonotopowości może wystąpić po utracie słuchu wywołanej hałasem, gdy włókna nerwu słuchowego, które powinny reagować na średnie częstotliwości (np. 2–4 kHz), mają dominujące odpowiedzi TFS na niższe częstotliwości (np. 700 Hz). Warto zauważyć, że utrata tonotopowości zwykle występuje tylko w przypadku kodowania TFS n , ale nie w przypadku ENV n kodowanie, co jest zgodne z większymi deficytami percepcyjnymi w przetwarzaniu TFS. Ta degradacja tonotopowa prawdopodobnie będzie miała ważne implikacje dla percepcji mowy i może odpowiadać za pogorszenie kodowania samogłosek w następstwie utraty słuchu spowodowanej hałasem, w której większość ślimaka reaguje tylko na pierwszy formant, eliminując normalną tonotopową reprezentację drugiego i trzeciego formanty.

Aspekty psychoakustyczne

Kilka badań psychofizycznych wykazało, że osoby starsze z prawidłowym słuchem i osoby z niedosłuchem odbiorczym często wykazują upośledzoną wydajność w zadaniach słuchowych, które zakłada się, że opierają się na zdolności jednousznego i obuusznego układu słuchowego do kodowania i używania TFS n sygnały, takie jak: rozróżnianie częstotliwości dźwięku, rozróżnianie częstotliwości podstawowej dźwięków harmonicznych, wykrywanie FM przy częstotliwościach poniżej 5 Hz, rozpoznawanie melodii dla sekwencji tonów czystych i dźwięków złożonych, lateralizacja i lokalizacja tonów czystych i tonów złożonych oraz segregacja współbieżnych dźwięków harmonicznych (takich jak dźwięki mowy). Jednak pozostaje niejasne, w jakim stopniu deficyty związane z ubytkiem słuchu odzwierciedlają gorsze przetwarzanie TFS n lub zmniejszoną selektywność częstotliwościową ślimaka.

Modele zaburzonego przetwarzania

Jakość reprezentacji dźwięku w nerwie słuchowym jest ograniczona refrakcją, adaptacją, nasyceniem i zmniejszoną synchronizacją (blokowanie fazy) przy wysokich częstotliwościach, a także stochastycznym charakterem potencjałów czynnościowych. Jednak nerw słuchowy zawiera tysiące włókien. Dlatego pomimo tych czynników ograniczających właściwości dźwięków są dość dobrze reprezentowane w populacji w szerokim zakresie poziomów i częstotliwości audio (patrz Teoria Volleya ).

Kodowanie informacji czasowej w nerwie słuchowym może zostać zakłócone przez dwa główne mechanizmy: zmniejszoną synchronizację i utratę synaps i/lub włókien nerwu słuchowego. Wpływ zakłóconego kodowania czasowego na percepcję słuchową człowieka został zbadany przy użyciu narzędzi do przetwarzania sygnałów inspirowanych fizjologią. Zmniejszenie synchronizacji neuronowej zostało zasymulowane przez jitterowanie faz składowych wieloczęstotliwościowych w mowie, chociaż ma to niepożądane skutki w domenie widmowej. Utratę włókien nerwu słuchowego lub synaps symulowano, zakładając (i), że każde włókno doprowadzające działa jako stochastyczny próbnik kształtu fali dźwiękowej, z większym prawdopodobieństwem wyzwolenia w przypadku dźwięku o wyższej intensywności i trwałych właściwościach niż w przypadku niższej intensywności lub przejściowego cechy oraz (ii) że deaferentację można modelować, zmniejszając liczbę próbników. Jednak ma to również niepożądane skutki w domenie widmowej. Zarówno drgania, jak i stochastyczne niedopróbkowanie pogarszają reprezentację TFS n więcej niż reprezentacja ENV n . Zarówno drgania, jak i stochastyczne podpróbkowanie osłabiają rozpoznawanie mowy w hałaśliwym tle bez pogarszania rozpoznawania w ciszy, potwierdzają argument, że TFS n jest ważny dla rozpoznawania mowy w hałasie. Zarówno drgania, jak i stochastyczne podpróbkowanie naśladują wpływ starzenia się na percepcję mowy.

Transmisja przez aparaty słuchowe i implanty ślimakowe

Transmisja obwiedni czasowej

Osoby ze ślimakowym ubytkiem słuchu zwykle mają mniejszy niż zwykle zakres dynamiczny między poziomem najsłabszego wykrywalnego dźwięku a poziomem, przy którym dźwięki stają się nieprzyjemnie głośne. Aby skompresować szeroki zakres poziomów dźwięków spotykanych w życiu codziennym do małego zakresu dynamiki osoby niedosłyszącej, aparaty słuchowe stosują kompresję amplitudy , zwaną również automatyczną kontrolą wzmocnienia (AGC). Podstawową zasadą takiej kompresji jest to, że stopień wzmocnienia zastosowanego do przychodzącego dźwięku stopniowo maleje wraz ze wzrostem poziomu wejściowego. Zwykle dźwięk jest dzielony na kilka „kanałów” częstotliwościowych, a AGC jest stosowane niezależnie w każdym kanale. W wyniku kompresji poziomu AGC zmniejsza wielkość fluktuacji obwiedni sygnału wejściowego (ENV p ) o wielkość zależną od szybkości fluktuacji i szybkości, z jaką zmienia się wzmocnienie w odpowiedzi na zmiany wejściowego poziomu dźwięku. AGC może również zmienić kształt obwiedni sygnału. Implanty ślimakowe to urządzenia, które elektrycznie stymulują nerw słuchowy, wywołując w ten sposób wrażenie dźwięku u osoby, która w przeciwnym razie byłaby całkowicie lub całkowicie głucha. Elektryczny zakres dynamiki jest bardzo mały, dlatego implanty ślimakowe zazwyczaj zawierają AGC przed przefiltrowaniem sygnału do wielu kanałów częstotliwości. Sygnały kanałowe są następnie poddawane natychmiastowej kompresji w celu mapowania ich do ograniczonego zakresu dynamicznego dla każdego kanału.

Implanty ślimakowe różnią się od aparatów słuchowych tym, że cały słuch akustyczny jest zastępowany bezpośrednią stymulacją elektryczną nerwu słuchowego, osiąganą za pomocą zestawu elektrod umieszczonych wewnątrz ślimaka. Dlatego tutaj inne czynniki niż przetwarzanie sygnału przez urządzenie również silnie przyczyniają się do ogólnego słyszenia, takie jak etiologia, stan nerwów, konfiguracja elektrod i bliskość nerwu oraz ogólny proces adaptacji do zupełnie nowego trybu słyszenia. Prawie wszystkie informacje w implantach ślimakowych są przenoszone przez fluktuacje obwiedni w różnych kanałach. Jest to wystarczające, aby zapewnić odpowiednią percepcję mowy w ciszy, ale nie w hałaśliwych lub pogłosowych warunkach. Przetwarzanie w implantach ślimakowych jest takie, że TFSp jest odrzucane na rzecz ciągów impulsów o stałej częstotliwości modulowanych amplitudowo przez ENVp w każdym paśmie częstotliwości. Użytkownicy implantów są wrażliwi na te modulacje ENVp, ale wydajność różni się w zależności od miejsca stymulacji, poziomu stymulacji i poszczególnych osób. TMTF ma kształt filtra dolnoprzepustowego podobny do obserwowanego u słuchaczy normalnie słyszących. Ton głosu lub informacja o tonacji muzycznej, przenoszona głównie za pomocą słabych sygnałów okresowości w ENVp, powoduje wrażenie wysokości tonu, które nie jest wystarczająco wyraźne, aby wspierać percepcję muzyki, identyfikację płci mówcy, tony leksykalne lub wskazówki prozodyczne. Słuchacze z implantami ślimakowymi są podatni na zakłócenia w domenie modulacji, co prawdopodobnie przyczynia się do trudności w słuchaniu w hałasie.

Czasowa transmisja drobnej struktury

Aparaty słuchowe zwykle przetwarzają dźwięki, filtrując je do wielu kanałów częstotliwości i stosując AGC w każdym kanale. Inne przetwarzanie sygnału w aparatach słuchowych, takie jak redukcja szumów, również obejmuje filtrowanie sygnału wejściowego na wiele kanałów. Filtrowanie do kanałów może wpływać na TFS p dźwięków w zależności od charakterystyki, takiej jak odpowiedź fazowa i opóźnienie grupowe filtrów. Jednak efekty te są zwykle niewielkie. Implanty ślimakowe filtrują również sygnał wejściowy do kanałów częstotliwości. Zwykle ENV p Sygnał w każdym kanale jest przesyłany do wszczepionych elektrod w postaci impulsów elektrycznych o stałej częstotliwości, które są modulowane pod względem amplitudy lub czasu trwania. Informacje o TFS p są odrzucane. Jest to uzasadnione obserwacją, że osoby z implantami ślimakowymi mają bardzo ograniczoną zdolność przetwarzania informacji TFS p , nawet jeśli jest ona przekazywana do elektrod, być może z powodu niedopasowania informacji czasowej do miejsca w ślimaku, do którego jest kierowana. dostarczone Zmniejszenie tego niedopasowania może poprawić możliwość korzystania z TFS p informacji, a tym samym prowadzić do lepszego postrzegania tonu. Niektóre systemy implantów ślimakowych przesyłają informacje o TFS p w kanałach implantów ślimakowych, które są dostrojone do niskich częstotliwości audio, co może poprawić percepcję tonu dźwięków o niskiej częstotliwości.

Efekty treningu i plastyczność przetwarzania obwiedni czasowej

Zgłoszono uczenie się percepcyjne wynikające z treningu dla różnych zadań wykrywania AM lub dyskryminacji słuchowej, co sugeruje, że reakcje centralnych neuronów słuchowych na bodźce ENV ​​plastyczne i że praktyka może modyfikować obwody przetwarzania ENV n .

Plastyczność przetwarzania ENV n wykazano na kilka sposobów. Na przykład zdolność neuronów kory słuchowej do rozróżniania wskazówek czasowych początku głosu dla fonemów ulega pogorszeniu po umiarkowanym ubytku słuchu (20-40 dB HL) wywołanym urazem akustycznym. Co ciekawe, rozwojowy ubytek słuchu zmniejsza reakcje korowe na powolne, ale nie szybkie (100 Hz) bodźce AM, równolegle z zachowaniem behawioralnym. W rzeczywistości przejściowa utrata słuchu (15 dni) występująca podczas „okresu krytycznego” jest wystarczająca do podwyższenia progów AM u dorosłych myszoskoczków. Nawet nietraumatyczna ekspozycja na hałas zmniejsza zdolność neuronów korowych do blokowania faz, a także behawioralną zdolność zwierząt do rozróżniania różnych dźwięków AM. Trening behawioralny lub protokoły parowania z udziałem neuromodulatorów również zmieniają zdolność neuronów korowych do synchronizacji fazowej z dźwiękami AM. U ludzi utrata słuchu może skutkować niezrównoważoną reprezentacją sygnałów mowy: ENV n wskazówek jest wzmacnianych kosztem n wskazówek TFS (patrz: Wpływ wieku i utraty słuchu na przetwarzanie obwiedni czasowej). Trening słuchowy może zmniejszyć reprezentację sygnałów ENV n mowy u starszych słuchaczy z ubytkiem słuchu, którzy mogą wtedy osiągnąć poziom porównywalny z obserwowanymi u słuchaczy w podeszłym wieku z normalnym słuchem. Wreszcie, intensywny trening muzyczny wywołuje zarówno efekty behawioralne, takie jak wyższa wrażliwość na zmiany wysokości tonu (w przypadku wysokości tonu języka mandaryńskiego), jak i lepszą synchronizację reakcji pnia mózgu na kontur f0 tonów leksykalnych u muzyków w porównaniu z osobami niebędącymi muzykami.

Kliniczna ocena czułości TFS

Opracowano szybkie i łatwe do przeprowadzenia testy psychofizyczne, aby pomóc klinicystom w badaniu zdolności przetwarzania TFS i diagnozowaniu nadprogowych czasowych deficytów przetwarzania słuchowego związanych z uszkodzeniem ślimaka i starzeniem się. Testy te mogą być również przydatne dla audiologów i producentów aparatów słuchowych w wyjaśnianiu i/lub przewidywaniu wyniku dopasowania aparatu słuchowego pod względem postrzeganej jakości, zrozumiałości mowy lub słyszenia przestrzennego. Testy te mogą ostatecznie zostać wykorzystane do zalecenia najbardziej odpowiedniej prędkości kompresji w aparatach słuchowych lub użycia mikrofonów kierunkowych. Potrzebę takich badań potwierdzają silne korelacje między progami detekcji powolnego FM lub modulacji spektro-czasowej a wspomaganą zrozumiałością mowy w konkurencyjnych środowiskach dla osób z uszkodzonym słuchem. Testy kliniczne można podzielić na dwie grupy: oceniające możliwości przetwarzania jednousznego TFS (test TFS1) oraz oceniające zdolności obuuszne (dwuuszny ton, TFS-LF, TFS-AF).

TFS1: ten test ocenia zdolność do rozróżniania złożonego tonu harmonicznego od jego wersji z transpozycją częstotliwościową (a zatem nieharmoniczną). Ton różnicowy: te testy oceniają zdolność wykrywania i rozróżniania tonu różnicowego oraz rozpoznawania melodii przy użyciu różnych rodzajów tonu różnicowego. TFS-LF: ten test ocenia zdolność do rozróżniania czystych tonów o niskiej częstotliwości, które są identyczne w obu uszach od tych samych tonów różniących się w fazie międzyusznej. TFS AF: ten test ocenia najwyższą częstotliwość dźwięku czystego tonu, do której można rozróżnić zmianę fazy międzyusznej.

Obiektywne miary z wykorzystaniem wskazówek koperty i TFS

Zniekształcenia sygnału, dodatkowe szumy, pogłos i strategie przetwarzania dźwięku, takie jak tłumienie szumów i kompresja zakresu dynamicznego, mogą wpływać na zrozumiałość mowy oraz jakość mowy i muzyki. Te zmiany w postrzeganiu sygnału można często przewidzieć, mierząc powiązane zmiany w obwiedni sygnału i/lub subtelnej strukturze czasowej (TFS). Obiektywne pomiary zmian sygnału, w połączeniu z procedurami, które wiążą zmiany sygnału z różnicami w percepcji słuchowej, dają podstawę do metryk wydajności słuchowej do przewidywania zrozumiałości i jakości mowy.

Zmiany w TFS można oszacować przepuszczając sygnały przez bank filtrów i obliczając spójność między wejściem i wyjściem systemu w każdym paśmie. Zrozumiałość przewidywana na podstawie koherencji jest dokładna w przypadku niektórych form szumu addytywnego i zniekształceń nieliniowych, ale działa słabo w przypadku tłumienia szumów z idealną maską binarną (IBM). Jakość mowy i muzyki dla sygnałów narażonych na szum i zniekształcenia przycinania została również modelowana przy użyciu koherencji lub koherencji uśrednionej dla krótkich segmentów sygnału.

Zmiany w obwiedni sygnału można zmierzyć za pomocą kilku różnych procedur. Obecność szumu lub pogłosu zmniejsza głębokość modulacji sygnału, a wielopasmowy pomiar głębokości modulacji obwiedni sygnału wyjściowego systemu jest wykorzystywany w indeksie transmisji mowy (STI) do oszacowania zrozumiałości. Choć dokładny w zastosowaniach związanych z hałasem i pogłosem, STI działa słabo w przypadku przetwarzania nieliniowego, takiego jak kompresja zakresu dynamicznego. Rozszerzenie STI szacuje zmianę modulacji poprzez korelację krzyżową obwiedni wejściowych i wyjściowych sygnałów mowy. Powiązaną procedurą, również wykorzystującą korelacje krzyżowe obwiedni, jest miara obiektywnej zrozumiałości w krótkim czasie (STOI), która dobrze sprawdza się w zamierzonym zastosowaniu do oceny tłumienia szumów, ale jest mniej dokładna w przypadku zniekształceń nieliniowych. Metryki zrozumiałości oparte na obwiedniach zostały również wyprowadzone przy użyciu banków filtrów modulacji i wzorców modulacji czasowo-częstotliwościowej obwiedni. Korelacja krzyżowa obwiedni jest również wykorzystywana do szacowania jakości mowy i muzyki.

Pomiary obwiedni i TFS można również łączyć w celu uzyskania wskaźników zrozumiałości i jakości. Za pomocą wspólnego modelu peryferii słuchowych, które mogą reprezentować ubytek słuchu, opracowano rodzinę wskaźników dotyczących zrozumiałości mowy, jakości mowy i jakości muzyki. Korzystanie z modelu upośledzonych peryferii prowadzi do dokładniejszych prognoz dla słuchaczy z uszkodzonym słuchem niż przy użyciu modelu z normalnym słuchem, a połączona metryka obwiedni/TFS jest generalnie dokładniejsza niż metryka wykorzystująca samą modulację obwiedni.

Zobacz też