Percepcyjna lokalizacja dźwięku 3D

Percepcyjna lokalizacja dźwięku 3D to zastosowanie wiedzy o ludzkim układzie słuchowym do opracowania technologii lokalizacji dźwięku 3D .

Motywacja i zastosowania

Ludzcy słuchacze łączą informacje z dwojga uszu, aby zlokalizować i oddzielić źródła dźwięku pochodzące z różnych miejsc w procesie zwanym słyszeniem obuusznym. Potężne metody przetwarzania sygnałów stosowane w systemach nerwowych i mózgach ludzi i innych zwierząt są elastyczne, przystosowują się do środowiska i zachodzą szybko i pozornie bez wysiłku. Emulowanie mechanizmów słyszenia obuusznego może poprawić dokładność rozpoznawania i separację sygnału w DSP algorytmów, zwłaszcza w hałaśliwym otoczeniu. Co więcej, dzięki zrozumieniu i wykorzystaniu biologicznych mechanizmów lokalizacji dźwięku, wirtualne sceny dźwiękowe mogą być renderowane za pomocą metod bardziej odpowiednich percepcyjnie, umożliwiając słuchaczom dokładne postrzeganie lokalizacji zdarzeń dźwiękowych. Jednym ze sposobów uzyskania lokalizacji dźwięku opartej na percepcji są rzadkie przybliżenia cech antropometrycznych. Percepcyjna lokalizacja dźwięku może być wykorzystana do ulepszenia i uzupełnienia nawigacji robotów i możliwości rozpoznawania otoczenia. Ponadto służy również do tworzenia wirtualnych przestrzeni słuchowych, co jest szeroko stosowane w aparatach słuchowych.

Opis problemu i podstawowe pojęcia

Chociaż związek między ludzką percepcją dźwięku a różnymi atrybutami pola dźwiękowego nie jest jeszcze dobrze poznany, algorytmy DSP do lokalizacji dźwięku są w stanie wykorzystać kilka mechanizmów występujących w systemach neuronowych, w tym międzyuszną różnicę czasu (ITD, różnica w czasie dotarcia dźwięku między dwoma lokalizacjami), międzyuszną różnicę natężenia ( IID, różnica w natężeniu dźwięku między dwoma lokalizacjami), sztuczne małżowiny uszne , efekt pierwszeństwa i związane z głową funkcje przenoszenia (HRTF). Podczas lokalizowania dźwięku 3D w domenie przestrzennej można wziąć pod uwagę, że nadchodzący sygnał dźwiękowy może zostać odbity, ugięty i rozproszony przez górną część tułowia człowieka, która składa się z ramion, głowy i małżowin usznych . Lokalizacja zależy również od kierunku źródła dźwięku.

HATS: Symulator głowy i tułowia

Obraz symulatora głowy i tułowia zaadaptowany z

Brüel & Kjær's Head And Torso Simulator (HATS) to prototyp manekina z wbudowanymi symulatorami uszu i ust, który zapewnia realistyczne odwzorowanie właściwości akustycznych głowy i tułowia przeciętnego dorosłego człowieka. Jest przeznaczony do stosowania w testach elektroakustycznych, na przykład zestawów słuchawkowych, urządzeń audiokonferencyjnych, mikrofonów, słuchawek i aparatów słuchowych. Na tym modelu strukturalnym opierają się różne istniejące podejścia.

Istniejące podejścia

Śledzenie oparte na cząsteczkach

Niezbędna jest umiejętność analizowania odległości i natężenia różnych źródeł w domenie przestrzennej. Możemy śledzić każde takie źródło dźwięku, stosując probabilistyczną integrację czasową, opartą na danych uzyskanych przez układ mikrofonów i tracker z filtrem cząstek. Korzystając z tego podejścia, funkcja gęstości prawdopodobieństwa (PDF) reprezentująca lokalizację każdego źródła jest reprezentowana jako zestaw cząstek, którym przypisano różne wagi (prawdopodobieństwa). Wybór filtrowania cząstek zamiast filtrowania Kalmana jest dodatkowo uzasadniony niegaussowskimi prawdopodobieństwami wynikającymi z fałszywych detekcji i wielu źródeł.

ITD, ILD i IPD

Zgodnie z teorią dupleksu, ITD mają większy udział w lokalizacji dźwięków o niskiej częstotliwości (poniżej 1 kHz), podczas gdy ILD są wykorzystywane do lokalizacji dźwięku o wysokiej częstotliwości. Podejścia te można zastosować do selektywnych rekonstrukcji uprzestrzennionych sygnałów, w których składowe spektroczasowe uważane za zdominowane przez pożądane źródło dźwięku są identyfikowane i izolowane za pomocą krótkookresowej transformaty Fouriera (STFT). Nowoczesne systemy zwykle obliczają STFT sygnału przychodzącego z dwóch lub więcej mikrofonów i szacują ITD lub każdy składnik spektroczasowy, porównując fazy STFT. Zaletą tego podejścia jest to, że można je uogólnić na więcej niż dwa mikrofony, co może poprawić dokładność w 3 wymiarach i wyeliminować dwuznaczność lokalizacji przód-tył, która występuje tylko przy dwojgu uszach lub mikrofonach. Kolejną zaletą jest to, że ITD jest stosunkowo silny i łatwy do uzyskania bez instrumentów biomimetycznych, takich jak manekiny i sztuczne małżowiny uszne, chociaż nadal można ich używać do zwiększania dysproporcji amplitudy. HRTF jest w większości liniowa, a słuchacze są niewrażliwi na szczegóły międzyusznego widma fazowego, o ile zachowane jest międzyuszne opóźnienie czasowe (ITD) połączonej niskoczęstotliwościowej części kształtu fali.

Międzyuszne różnice poziomów (ILD) reprezentują różnicę w poziomie ciśnienia akustycznego docierającego do obu uszu. Dostarczają istotnych wskazówek do lokalizowania dźwięków o wysokiej częstotliwości w przestrzeni, a populacje neuronów wrażliwych na ILD znajdują się na prawie każdym poziomie synaptycznym, od pnia mózgu po korę mózgową. Komórki te są głównie pobudzane przez stymulację jednego ucha i głównie hamowane przez stymulację drugiego ucha, tak że wielkość ich odpowiedzi zależy w dużej mierze od intensywności w 2 uszach. Daje to początek koncepcji tłumienia rezonansowego. Międzyuszna różnica poziomów (ILD) najlepiej sprawdza się w przypadku dźwięków o wysokiej częstotliwości, ponieważ dźwięki o niskiej częstotliwości nie są zbytnio tłumione przez głowę. ILD (znana również jako Interaural Intensity Difference) powstaje, gdy źródło dźwięku nie jest wyśrodkowane, głowa słuchacza częściowo zasłania ucho przeciwne do źródła, zmniejszając intensywność dźwięku w tym uchu (szczególnie przy wyższych częstotliwościach). Pinnae filtruje dźwięk w sposób zależny od kierunku . Jest to szczególnie przydatne przy ustalaniu, czy dźwięk dochodzi z góry, z dołu, z przodu czy z tyłu.

Międzyuszne różnice czasu i poziomów (ITD, ILD) odgrywają rolę w postrzeganiu azymutu , ale nie mogą wyjaśnić lokalizacji pionowej. Zgodnie z teorią dupleksu, ITD mają większy udział w lokalizacji dźwięków o niskiej częstotliwości (poniżej 1 kHz), podczas gdy ILD są wykorzystywane do lokalizacji dźwięku o wysokiej częstotliwości. ILD wynika z faktu, że dźwięk dochodzący ze źródła znajdującego się po jednej stronie głowy będzie miał większą intensywność lub będzie głośniejszy w uchu najbliższym źródła dźwięku. Można zatem stworzyć iluzję źródła dźwięku wydobywającego się z jednej strony głowy, po prostu regulując względny poziom dźwięków dostarczanych do dwóch oddzielnych głośników lub słuchawek. Jest to podstawa powszechnie stosowanego sterowania panoramą.

Międzyuszna różnica faz (IPD) odnosi się do różnicy w fazie fali docierającej do każdego ucha i zależy od częstotliwości fali dźwiękowej oraz międzyusznych różnic czasowych (ITD).

Gdy mózg przeanalizuje IPD, ITD i ILD, lokalizację źródła dźwięku można określić ze względną dokładnością.

Efekt pierwszeństwa

Efekt pierwszeństwa to obserwacja, że ​​lokalizacja dźwięku może być zdominowana przez składniki złożonego dźwięku, które pojawiają się jako pierwsze. Pozwalając na dominację składowych pola bezpośredniego (dochodzących bezpośrednio ze źródła dźwięku) przy jednoczesnym tłumieniu wpływu opóźnionych składowych odbitych z innych kierunków, efekt pierwszeństwa może poprawić dokładność postrzegania lokalizacji dźwięku w środowisku pogłosowym. Przetwarzanie efektu pierwszeństwa polega na wzmocnieniu krawędzi natarcia obwiedni dźwiękowych sygnału po podzieleniu go na pasma częstotliwości poprzez filtrowanie pasmowoprzepustowe. Takie podejście można zastosować zarówno na poziomie monofonicznym, jak i obuusznym, i poprawia dokładność w środowiskach pogłosowych w obu przypadkach. Jednak korzyści wynikające z zastosowania efektu pierwszeństwa mogą się załamać w środowisku bezechowym.

HRTF

Ciało ludzkiego słuchacza blokuje przychodzące fale dźwiękowe, powodując liniowe filtrowanie sygnału dźwiękowego z powodu zakłóceń z głowy, uszu i ciała. Ludzie używają dynamicznych wskazówek, aby wzmocnić lokalizację. Wynikają one z aktywnych, czasem nieświadomych ruchów słuchacza, które zmieniają względną pozycję źródła. Doniesiono, że pomieszanie przód/tył, które jest powszechne w statycznych testach odsłuchowych, znika, gdy słuchacze mogą lekko obrócić głowę, aby pomóc im w lokalizacji. Jeśli jednak scena dźwiękowa jest prezentowana przez słuchawki bez kompensacji ruchu głowy, scena nie zmienia się wraz z ruchem użytkownika i nie ma dynamicznych wskazówek.

Funkcje transferu związane z głową zawierają wszystkie deskryptory wskazówek dotyczących lokalizacji, takie jak ITD i IID, a także wskazówki monofoniczne. Każdy HRTF w unikalny sposób reprezentuje przeniesienie dźwięku z określonej pozycji w przestrzeni 3D do uszu słuchacza. Proces dekodowania wykonywany przez układ słuchowy można naśladować za pomocą sztucznej konfiguracji składającej się z dwóch mikrofonów, dwóch sztucznych uszu i bazy danych HRTF. Aby określić położenie źródła dźwięku w przestrzeni 3D, sygnały wejściowe do ucha są splecione z odwrotnościami wszystkich możliwych par HRTF, gdzie prawidłowa odwrotność maksymalizuje korelację krzyżową między splecionymi sygnałami prawym i lewym. W przypadku wielu równoczesnych źródeł dźwięku przenoszenie dźwięku ze źródła do uszu można uznać za wielokrotne wejście i wiele wyjść . W tym przypadku HRTF, za pomocą których sygnały źródłowe zostały przefiltrowane w drodze do mikrofonów, można znaleźć za pomocą metod takich jak konwolucyjna ślepa separacja źródeł, która ma tę zaletę, że zapewnia wydajną implementację w systemach czasu rzeczywistego. Ogólnie rzecz biorąc, te podejścia wykorzystujące HRTF można dobrze zoptymalizować, aby zlokalizować wiele ruchomych źródeł dźwięku. Przeciętny człowiek ma niezwykłą zdolność lokalizowania źródła dźwięku z dokładnością lepszą niż 5 dokładność zarówno w azymucie, jak i elewacji, w trudnych warunkach. [ potrzebne źródło ]