Funkcja przenoszenia związana z głową
Funkcja przenoszenia związana z głową ( HRTF ), znana również jako anatomiczna funkcja przenoszenia ( ATF ), [ potrzebne źródło ] lub cień głowy to reakcja charakteryzująca sposób, w jaki ucho odbiera dźwięk z punktu w przestrzeni. Kiedy dźwięk dociera do słuchacza, rozmiar i kształt głowy, uszu, kanału słuchowego, gęstość głowy, rozmiar i kształt jamy nosowej i ustnej – wszystko to zmienia dźwięk i wpływa na jego odbiór, wzmacniając niektóre częstotliwości i tłumiąc inne . Ogólnie mówiąc, HRTF wzmacnia częstotliwości od 2 do 5 kHz z pierwotnym rezonansem +17 dB przy 2700 Hz. Jednak krzywa odpowiedzi jest bardziej złożona niż pojedyncze uderzenie, wpływa na szerokie spektrum częstotliwości i znacznie różni się w zależności od osoby.
Para HRTF dla dwojga uszu może służyć do syntezy obuusznego dźwięku, który wydaje się pochodzić z określonego punktu w przestrzeni. Jest to funkcja przenoszenia , opisująca, w jaki sposób dźwięk z określonego punktu dotrze do ucha (zwykle na zewnętrznym końcu przewodu słuchowego ). Niektóre konsumenckie produkty domowej rozrywki przeznaczone do odtwarzania dźwięku przestrzennego ze słuchawek stereofonicznych (z dwoma głośnikami) wykorzystują HRTF. Niektóre formy przetwarzania HRTF zostały również uwzględnione w oprogramowaniu komputerowym w celu symulacji odtwarzania dźwięku przestrzennego z głośników.
Człowiek ma tylko dwoje uszu , ale może lokalizować dźwięki w trzech wymiarach – w zasięgu (odległość), w kierunku powyżej i poniżej (elewacja), z przodu iz tyłu, a także z obu stron (azymut). Jest to możliwe, ponieważ mózg, ucho wewnętrzne i uszy zewnętrzne ( małżowina uszna ) wspólnie wyciągają wnioski na temat lokalizacji. Ta zdolność do lokalizowania źródeł dźwięku mogła rozwinąć się u ludzi i przodków jako ewolucyjna konieczność, ponieważ oczy widzą tylko ułamek świata wokół widza, a widzenie jest utrudnione w ciemności, podczas gdy zdolność do lokalizowania źródła dźwięku działa w we wszystkich kierunkach, z różną dokładnością, niezależnie od otaczającego światła.
Ludzie szacują lokalizację źródła na podstawie sygnałów pochodzących z jednego ucha ( wskazówki monofoniczne ) i porównując sygnały otrzymane z obu uszu ( wskazówki różnicowe lub sygnały obuuszne ). Wśród wskazówek dotyczących różnic są różnice w czasie przybycia i różnice w intensywności. Sygnały monofoniczne pochodzą z interakcji między źródłem dźwięku a anatomią człowieka, w której oryginalny dźwięk źródłowy jest modyfikowany, zanim trafi do kanału słuchowego w celu przetworzenia przez układ słuchowy. Te modyfikacje kodują lokalizację źródła i mogą być przechwytywane za pomocą odpowiedzi impulsowej który dotyczy lokalizacji źródła i lokalizacji ucha. Ta odpowiedź impulsowa jest nazywana odpowiedzią impulsową związaną z głową (HRIR). Splot dowolnego dźwięku źródłowego z HRIR przekształca dźwięk na taki, jaki usłyszałby słuchacz, gdyby był odtwarzany w miejscu źródła, z uchem słuchacza w miejscu odbiornika. HRIR zostały wykorzystane do wytworzenia wirtualnego dźwięku przestrzennego. [ potrzebny przykład ]
HRTF to transformata Fouriera HRIR.
powyżej jako HRIR) opisują filtrowanie źródła dźwięku ( x ( t )), zanim zostanie ono odebrane przez lewe i prawe ucho jako odpowiednio xL ( t ) i xR ( t ).
HRTF można również opisać jako modyfikacje dźwięku z kierunku w powietrzu do dźwięku docierającego do błony bębenkowej . Modyfikacje te obejmują kształt ucha zewnętrznego słuchacza, kształt głowy i ciała słuchacza, charakterystykę akustyczną przestrzeni, w której odtwarzany jest dźwięk, i tak dalej. Wszystkie te cechy będą miały wpływ na to, jak (lub czy) słuchacz może dokładnie określić kierunek, z którego dochodzi dźwięk.
W standardzie AES69-2015 Audio Engineering Society (AES) zdefiniowało format pliku SOFA do przechowywania zorientowanych przestrzennie danych akustycznych, takich jak funkcje przenoszenia związane z głową (HRTF). Biblioteki i pliki oprogramowania SOFA są gromadzone na stronie internetowej Sofa Conventions.
Jak działa HRTF
Powiązany mechanizm różni się u poszczególnych osób, ponieważ różnią się kształtami głowy i uszu.
HRTF opisuje, w jaki sposób dana wejściowa fala dźwiękowa (sparametryzowana jako częstotliwość i lokalizacja źródła) jest filtrowana przez właściwości dyfrakcyjne i odbijające głowy , małżowiny usznej i tułowia , zanim dźwięk dotrze do mechanizmu transdukcji błony bębenkowej i ucha wewnętrznego (patrz układ słuchowy ). Z biologicznego punktu widzenia efekty filtrowania wstępnego specyficzne dla lokalizacji źródła tych zewnętrznych struktur pomagają w neuronalnym określeniu lokalizacji źródła , w szczególności w określeniu źródła wysokość (patrz pionowa lokalizacja dźwięku ).
Wyprowadzenie techniczne
Analiza systemów liniowych definiuje funkcję przenoszenia jako złożony stosunek widma sygnału wyjściowego do widma sygnału wejściowego w funkcji częstotliwości. Blauert (1974; cytowany w Blauert, 1981) początkowo zdefiniował funkcję przenoszenia jako funkcję przenoszenia pola swobodnego (FFTF). Inne terminy obejmują funkcję przenoszenia z pola swobodnego do błony bębenkowej oraz transformację ciśnienia z pola swobodnego do błony bębenkowej. Mniej szczegółowe opisy obejmują funkcję przenoszenia małżowiny usznej, małżowiny usznej , reakcję małżowiny usznej lub funkcję przenoszenia kierunkowego (DTF).
Funkcja przenoszenia H ( f ) dowolnego liniowego układu niezmienniczego w czasie przy częstotliwości f wynosi:
- H ( fa ) = Wyjście ( fa ) / Wejście ( fa )
Jednym ze sposobów wykorzystywanych do uzyskania HRTF z danej lokalizacji źródła jest zatem pomiar odpowiedzi impulsowej związanej z głową (HRIR), h ( t ), w błonie bębenkowej dla impulsu Δ ( t ) umieszczonego w źródle. HRTF H ( f ) jest transformatą Fouriera HRIR h ( t ).
Nawet mierzone dla „manekina głowy” o wyidealizowanej geometrii, HRTF są skomplikowanymi funkcjami częstotliwości i trzech zmiennych przestrzennych . Jednak w przypadku odległości większych niż 1 m od głowy można powiedzieć, że HRTF zmniejsza się odwrotnie do zasięgu. Jest to pole dalekie HRTF, H ( f , θ , φ ), które najczęściej mierzono. Przy bliższej odległości różnica poziomów obserwowana między uszami może być dość duża, nawet w obszarze niskich częstotliwości, w którym obserwuje się pomijalne różnice poziomów w polu dalekim.
HRTF są zazwyczaj mierzone w komorze bezechowej , aby zminimalizować wpływ wczesnych odbić i pogłosu na mierzoną odpowiedź. HRTF są mierzone przy małych przyrostach θ , takich jak 15° lub 30° w płaszczyźnie poziomej, z interpolacją stosowaną do syntezy HRTF dla dowolnych pozycji θ . Jednak nawet przy niewielkich przyrostach interpolacja może prowadzić do zamieszania przód-tył, a optymalizacja procedury interpolacji jest aktywnym obszarem badań.
Aby zmaksymalizować stosunek sygnału do szumu (SNR) w mierzonym HRTF, ważne jest, aby generowany impuls miał dużą głośność. W praktyce jednak generowanie impulsów o dużej głośności może być trudne, a jeśli zostaną wygenerowane, mogą być szkodliwe dla ludzkich uszu, dlatego częściej HRTF są obliczane bezpośrednio w dziedzinie częstotliwości przy użyciu fali sinusoidalnej o przemiatanej częstotliwości lub przy użyciu sekwencji o maksymalnej długości . Jednak zmęczenie użytkownika nadal stanowi problem, co podkreśla potrzebę możliwości interpolacji na podstawie mniejszej liczby pomiarów.
Funkcja przenoszenia związana z głową jest zaangażowana w rozwiązywanie stożka zamieszania , serii punktów, w których ITD i ILD są identyczne dla źródeł dźwięku z wielu miejsc wokół części „0” stożka. Kiedy dźwięk jest odbierany przez ucho, może albo przejść prosto do ucha do kanału słuchowego, albo może zostać odbity od małżowiny usznej ucha, do kanału słuchowego ułamek sekundy później. Dźwięk będzie zawierał wiele częstotliwości, dlatego wiele kopii tego sygnału dotrze do ucha w różnym czasie, w zależności od ich częstotliwości (w zależności od odbicia, dyfrakcji i ich interakcji z wysokimi i niskimi częstotliwościami oraz wielkością struktur ucha.) Te kopie nakładają się na siebie, a podczas tego niektóre sygnały są wzmacniane (tam, gdzie fazy sygnałów są zgodne), podczas gdy inne kopie są kasowane (gdzie fazy sygnału nie pasują). Zasadniczo mózg szuka wycięć częstotliwości w sygnale, które odpowiadają określonym znanym kierunkom dźwięku. [ potrzebne źródło ]
Gdyby uszy innej osoby zostały zastąpione, osoba nie byłaby w stanie od razu zlokalizować dźwięku, ponieważ wzorce wzmacniania i tłumienia różniłyby się od wzorców, do których przyzwyczajony jest układ słuchowy danej osoby. Jednak po kilku tygodniach układ słuchowy dostosuje się do nowej funkcji przenoszenia związanej z głową. Zmienność międzyosobniczą w widmach HRTF zbadano za pomocą analiz klastrów.
Oceniając zmienność poprzez zmiany w uchu osoby, możemy ograniczyć naszą perspektywę stopniami swobody głowy i jej związkiem z domeną przestrzenną. W ten sposób eliminujemy nachylenie i inne parametry współrzędnych, które zwiększają złożoność. W celu kalibracji interesuje nas tylko poziom kierunku do naszych uszu, czyli określony stopień swobody. Niektóre ze sposobów, w jakie możemy wydedukować wyrażenie w celu kalibracji HRTF, to:
- Lokalizacja dźwięku w wirtualnej przestrzeni słuchowej
- Synteza fazowa HRTF
- Synteza wielkości HRTF
Lokalizacja dźwięku w wirtualnej przestrzeni słuchowej
Podstawowym założeniem przy tworzeniu wirtualnej przestrzeni słuchowej jest to, że jeśli przebiegi akustyczne obecne w bębenkach słuchacza są takie same pod słuchawkami jak w polu swobodnym, to doznania słuchacza również powinny być takie same.
Zazwyczaj dźwięki generowane przez słuchawki są odbierane jako pochodzące z wnętrza głowy. W wirtualnej przestrzeni dźwiękowej słuchawki powinny mieć możliwość „uzewnętrznienia” dźwięku. Korzystając z HRTF, dźwięki można rozmieścić w przestrzeni przy użyciu techniki opisanej poniżej.
Niech x 1 ( t ) reprezentuje sygnał elektryczny napędzający głośnik, a y 1 ( t ) reprezentuje sygnał odbierany przez mikrofon wewnątrz błony bębenkowej słuchacza. Podobnie, niech x 2 ( t ) reprezentuje sygnał elektryczny sterujący słuchawką, a y 2 ( t ) reprezentuje reakcję mikrofonu na ten sygnał. Celem wirtualnej przestrzeni słuchowej jest wybranie x 2 ( t ) takiego, że y 2 ( t ) = y 1 ( t ). Stosując transformatę Fouriera do tych sygnałów, otrzymujemy następujące dwa równania:
- Y 1 = X 1 LFM i
- Y 2 = X 2 HM,
gdzie L to funkcja przenoszenia głośnika w polu swobodnym, F to HRTF, M to funkcja przenoszenia mikrofonu, a H to funkcja przenoszenia słuchawek do błony bębenkowej. Ustawienie Y 1 = Y 2 i rozwiązanie dla X 2 daje plony
- X 2 = X 1 LF/H.
Z obserwacji wynika, że pożądana funkcja przejścia to
- T = LF / H. _
Dlatego teoretycznie, jeśli x 1 ( t ) przechodzi przez ten filtr i wynikowe x 2 ( t ) jest odtwarzane w słuchawkach, powinien generować ten sam sygnał na błonie bębenkowej. Ponieważ filtr dotyczy tylko jednego ucha, należy wyprowadzić inny filtr dla drugiego ucha. Ten proces jest powtarzany dla wielu miejsc w środowisku wirtualnym, aby utworzyć tablicę funkcji transferu związanych z głową dla każdej pozycji, która ma zostać odtworzona, przy jednoczesnym zapewnieniu, że warunki próbkowania są ustawione zgodnie z kryteriami Nyquista .
Synteza fazowa HRTF
Oszacowanie fazy jest mniej wiarygodne w bardzo niskiej części pasma częstotliwości, aw wyższych częstotliwościach na odpowiedź fazową mają wpływ cechy małżowiny usznej. Wcześniejsze badania wykazały również, że odpowiedź fazowa HRTF jest w większości liniowa i że słuchacze są niewrażliwi na szczegóły międzyusznego widma fazowego, o ile zachowane jest międzyuszne opóźnienie czasowe (ITD) połączonej niskoczęstotliwościowej części kształtu fali. Jest to modelowana odpowiedź fazowa badanego HRTF jako opóźnienie czasowe, zależne od kierunku i wysokości.
Współczynnik skalowania jest funkcją cech antropometrycznych. Na przykład zestaw szkoleniowy składający się z N osób uwzględniałby każdą fazę HRTF i opisywał pojedynczy współczynnik skalowania ITD jako średnie opóźnienie grupy. Ten obliczony współczynnik skalowania może oszacować opóźnienie czasowe jako funkcję kierunku i wysokości dla dowolnej osoby. Konwersja opóźnienia czasowego na odpowiedź fazową dla lewego i prawego ucha jest trywialna.
Fazę HRTF można opisać współczynnikiem skalującym ITD . To z kolei jest określane ilościowo przez dane antropometryczne danej osoby, traktowane jako źródło odniesienia. W ogólnym przypadku uważamy β za wektor rzadki
który reprezentuje cechy antropometryczne podmiotu jako liniową superpozycję cech antropometrycznych z danych treningowych (y ' = β T X), a następnie stosuje ten sam rzadki wektor bezpośrednio na wektorze skalowania H. Możemy zapisać to zadanie jako problem minimalizacji , dla nieujemnego parametru kurczenia się λ :
Na tej podstawie wartość współczynnika skalującego ITD H ' szacuje się jako:
ułożone w wektor H ∈ R N , więc wartość Hn odpowiada współczynnikowi skalującemu n-tej osoby.
Synteza wielkości HRTF
Rozwiązujemy powyższy problem minimalizacji za pomocą najmniejszego bezwzględnego skurczu i operatora wyboru (LASSO). Zakładamy, że HRTF są reprezentowane przez tę samą relację, co cechy antropometryczne. Dlatego też, gdy poznamy rzadki wektor β z cech antropometrycznych, zastosujemy go bezpośrednio do danych tensorowych HRTF i wartości HRTF podmiotu H ' podanych przez:
gdzie HRTF dla każdego przedmiotu są opisane przez tensor o rozmiarze D × K , gdzie D to liczba kierunków HRTF, a K to liczba przedziałów częstotliwości. Wszystkie H n , d , k odpowiadające wszystkim HRTF zestawu treningowego są ułożone w nowy tensor H ∈ R N × D × K , więc wartość H n,d, k odpowiada k -temu przedziałowi częstotliwości dla d -ty kierunek HRTF n -tej osoby. Również H'd HRTF , k odpowiada k -tej częstotliwości dla każdego d-tego kierunku zsyntetyzowanej HRTF.
Technologia nagrywania i odtwarzania
Nagrania przetworzone za pomocą HRTF, na przykład w środowisku gier komputerowych (patrz A3D , EAX i OpenAL ), które są zbliżone do HRTF słuchacza, można słuchać przez słuchawki lub głośniki stereo i interpretować tak, jakby zawierały dźwięki dochodzące ze wszystkich kierunków , a nie tylko dwa punkty po obu stronach głowy. Postrzegana dokładność wyniku zależy od tego, jak bardzo zestaw danych HRTF odpowiada charakterystyce własnych uszu, chociaż ogólny HRTF może być preferowany niż dokładny pomiar z jednego ucha. Niektórzy dostawcy, tacy jak Apple i Sony, oferują różne HRTF do wyboru na podstawie kształtu ucha użytkownika.
Windows 10 i nowsze są dostarczane z Microsoft Spatial Sound, tą samą platformą dźwięku przestrzennego, która jest używana na Xbox One i Hololens 2. Na komputerze PC z systemem Windows lub Xbox One platforma może korzystać z kilku różnych procesorów dźwięku downstream, w tym Windows Sonic for Headphones, Dolby Atmos i DTS Headphone:X , aby zastosować HRTF. Ramy mogą renderować zarówno dźwięku przestrzennego o stałej pozycji , jak i dynamiczne źródła „obiektowe”, które mogą poruszać się w przestrzeni.
Podobnie Apple ma dźwięk przestrzenny dla swoich urządzeń używanych ze słuchawkami produkowanymi przez Apple lub Beats. W przypadku odtwarzania muzyki w słuchawkach można włączyć Dolby Atoms i zastosować HRTF. HRTF (a raczej pozycje obiektów) może zmieniać się wraz ze śledzeniem głowy , aby zachować iluzję kierunku./ Qualcomm Snapdragon ma podobny przestrzenny system audio śledzący ruch głowy, używany przez niektóre marki telefonów z Androidem.
Linux obecnie nie jest w stanie bezpośrednio przetworzyć żadnego z zastrzeżonych formatów dźwięku przestrzennego (surround i obiektów dynamicznych). SoundScape Renderer oferuje syntezę kierunkową. PulseAudio i PipeWire mogą zapewniać wirtualny dźwięk przestrzenny (kanały o stałej lokalizacji) za pomocą HRTF. Najnowsze wersje PipeWire są również w stanie zapewnić dynamiczne renderowanie przestrzenne przy użyciu HRTF, jednak automatyczna integracja z aplikacjami jest nadal w toku. Użytkownicy mogą konfigurować swoje pozycyjne i dynamiczne źródła dźwięku, a także symulować konfigurację głośników surround przy użyciu istniejących konfiguracji.
Systemy dźwięku przestrzennego Windows i Linux obsługują każdy model słuchawek stereo, podczas gdy Apple zezwala na używanie dźwięku przestrzennego tylko z zestawami słuchawkowymi Bluetooth marki Apple lub Beats. [ potrzebne źródło ]
Zobacz też
Linki zewnętrzne
- Samouczek dźwięku przestrzennego
- Baza danych CIPIC HRTF
- Posłuchaj bazy danych HRTF
- Baza danych modeli ucha w wysokiej rozdzielczości HRTF i 3D (48 osób)
- Baza danych AIR (baza danych HRTF w środowiskach pogłosowych)
- Baza danych Full Sphere HRIR/HRTF Neumanna KU100
- Baza danych MIT (jeden zestaw danych)
- Baza danych ARI (Instytut Badań nad Akustyką) (ponad 90 zestawów danych)