Synteza dźwięku 3D

3D jest najczęściej definiowany jako codzienne doświadczanie dźwięków przez człowieka. Dźwięki docierają do uszu z każdego kierunku iz różnej odległości, co przyczynia się do trójwymiarowego obrazu dźwiękowego słyszanego przez człowieka. Naukowcy i inżynierowie pracujący z dźwiękiem 3D pracują nad dokładną syntezą złożoności rzeczywistych dźwięków.

Zamiar

Ze względu na obecność dźwięku 3D w życiu codziennym i powszechne stosowanie lokalizacji dźwięku 3D , zastosowanie syntezy dźwięku 3D zyskało na popularności w takich dziedzinach, jak gry, kina domowe i systemy pomocy humanitarnej. Uważa się, że celem syntezy dźwięku 3D jest interpretacja informacji zebranych z dźwięku 3D, ponieważ trudno jest samodzielnie wykorzystać informacje z dźwięku 3D.

Aplikacje

Zastosowanie syntezy dźwięku 3D to poczucie obecności w środowisku wirtualnym poprzez tworzenie bardziej realistycznych środowisk i wrażeń w grach, systemach telekonferencyjnych i systemach telekonferencyjnych. Dźwięk 3D może być również używany do pomocy osobom z upośledzeniem sensorycznym, takim jak niedowidzący , i może działać jako substytut innych sensorycznych informacji zwrotnych.

Dźwięk 3D może obejmować lokalizację źródła w przestrzeni trójwymiarowej, jak również trójwymiarową charakterystykę promieniowania dźwięku źródła dźwięku.

Opis problemu i podstawy

Trzy główne problemy w syntezie dźwięku 3D to odwrócenia od przodu do tyłu, dźwięki słyszane wewnątrzczaszkowo i pomiary HRTF .

Odwrócenie od przodu do tyłu to dźwięki słyszane bezpośrednio przed obiektem, gdy znajduje się on z tyłu i odwrotnie. Problem ten można złagodzić poprzez dokładne uwzględnienie ruchu głowy pacjenta i reakcji małżowiny usznej. Gdy te dwa elementy zostaną pominięte podczas obliczania HRTF, wystąpi problem odwrotny. Innym rozwiązaniem jest reakcja wczesnego echa, która wyolbrzymia różnice dźwięków z różnych kierunków i wzmacnia efekty małżowiny usznej , aby zmniejszyć współczynniki odwracania od przodu do tyłu.

Dźwięki słyszane wewnątrzczaszkowo to dźwięki zewnętrzne, które wydają się być słyszane w głowie osoby. Można temu zaradzić, dodając pogłosu .

HRTF to szumy dźwiękowe i występujące problemy z liniowością. Używając kilku podstawowych słuchowych u podmiotu, który jest biegły w lokalizacji , w większości przypadków można wygenerować skuteczną HRTF.

Metody

Trzy główne metody stosowane w syntezie dźwięku 3D to funkcja przenoszenia związana z głową , renderowanie dźwięku i synteza dźwięku 3D z lokalizacją głośnika.

Funkcja przenoszenia związana z głową

Struktura syntezy łącząca PCA i BMT

Funkcja przenoszenia związana z głową ( HRTF ) jest funkcją liniową opartą na pozycji źródła dźwięku i uwzględnia inne informacje, których ludzie używają do lokalizacji dźwięków, takie jak międzyuszna różnica czasu , cień głowy , reakcja małżowiny usznej, echo barku, ruch głowy, wczesne echo reakcja, pogłos i wizja.

System próbuje modelować układ akustyczny człowieka za pomocą szeregu mikrofonów do nagrywania dźwięków w ludzkich uszach, co pozwala na dokładniejszą syntezę dźwięków 3D. HRTF uzyskuje się porównując te nagrania z oryginalnymi dźwiękami. Następnie HRTF jest używany do opracowania par filtrów skończonej odpowiedzi impulsowej ( FIR ) dla określonych pozycji dźwięku, przy czym każdy dźwięk ma dwa filtry dla lewego i prawego. Aby umieścić dźwięk w określonej pozycji w przestrzeni 3D, zestaw filtrów FIR odpowiadających tej pozycji jest stosowany do przychodzącego dźwięku, dając dźwięk przestrzenny . Obliczenia związane ze zwijaniem sygnału dźwiękowego z określonego punktu w przestrzeni są zwykle duże, dlatego generalnie potrzeba dużo pracy, aby zmniejszyć złożoność. Jedna z takich prac opiera się na połączeniu analizy głównych składowych (PCA) i Balanced Model Truncation (BMT). PCA to szeroko stosowana metoda eksploracji danych i redukcji danych , która była stosowana w syntezie dźwięku 3D przed BMT w celu zmniejszenia redundancji. BMT stosuje się w celu obniżenia złożoności obliczeń.

Renderowanie dźwięku

Metoda renderowania dźwięku polega na tworzeniu świata dźwięków poprzez dołączanie charakterystycznego dźwięku do każdego obiektu w scenie w celu syntezy jako dźwięk 3D. Źródła dźwięku można pozyskać metodą samplowania lub metodą sztuczną . W metodzie występują dwa odrębne przebiegi. Pierwszy przebieg oblicza ścieżki propagacji od każdego obiektu do mikrofonu, a wynik jest zbierany dla geometrycznych źródła dźwięku. Transformacja z pierwszego kroku jest kontrolowana zarówno przez opóźnienie, jak i tłumienie . Drugi przebieg tworzy ostateczną ścieżkę dźwiękową obiektów dźwiękowych po utworzeniu, modulacji i zsumowaniu.

Metoda renderowania, prostsza metoda niż generowanie HRTF, wykorzystuje podobieństwo między falami świetlnymi i dźwiękowymi , ponieważ dźwięki w przestrzeni rozchodzą się we wszystkich kierunkach. Fale dźwiękowe odbijają się i załamują podobnie jak światło. Końcowy słyszalny dźwięk to całka sygnałów transmitowanych wielościeżkowo.

Procedura przetwarzania składa się z czterech kroków. Pierwszym krokiem jest wygenerowanie charakterystycznego dźwięku w każdym obiekcie. Drugim krokiem jest stworzenie dźwięku i dołączenie go do poruszających się obiektów. Trzecim krokiem jest obliczenie zwojów , które są związane z efektem pogłosu. Renderowanie dźwięku przybliża to, wykorzystując długość fali dźwięku podobną do obiektu, dzięki czemu rozprasza się on w swoich odbiciach, zapewniając efekt wygładzenia dźwięku. Ostatnim krokiem jest zastosowanie obliczonych splotów do źródeł dźwięku w kroku drugim. Te kroki pozwalają na użycie uproszczonego algorytmu śledzenia dźwięku bez większych różnic.

Syntetyzowanie dźwięku 3D z lokalizacją głośników

Odtwarzanie pola dźwiękowego

Ta metoda polega na strategicznym rozmieszczeniu ośmiu głośników w celu symulacji dźwięku przestrzennego zamiast dołączania próbkowanego dźwięku do obiektów. Pierwszy krok polega na przechwyceniu dźwięku za pomocą sześciennej matrycy mikrofonów w oryginalnym polu dźwiękowym. Dźwięk jest następnie przechwytywany za pomocą sześciennej matrycy głośników w odtwarzanym polu dźwiękowym. Słuchacz, który znajduje się w zestawie głośników, poczuje, że dźwięk porusza się nad jego głową, gdy dźwięk porusza się nad zestawem mikrofonów.

Synteza pola falowego to technika przestrzennego renderowania dźwięku, która syntetyzuje czoła fal przy użyciu zasady Huygensa-Fresnela . Najpierw oryginalny dźwięk jest rejestrowany przez układy mikrofonów, a następnie układy głośników są wykorzystywane do odtwarzania dźwięku w obszarze odsłuchu. Tablice są rozmieszczone wzdłuż granic własnego obszaru, w którym znajdują się również mikrofony i głośniki. Ta technika pozwala wielu słuchaczom poruszać się w obszarze odsłuchu i wciąż słyszeć ten sam dźwięk ze wszystkich kierunków, czego nie mogą osiągnąć techniki obuuszne i eliminacji przesłuchów. Ogólnie rzecz biorąc, systemy odtwarzania dźwięku wykorzystujące syntezę pola falowego umieszczają głośniki w linii lub wokół słuchacza w przestrzeni 2D .