Wokoder fazowy

Wokoder fazowy to rodzaj algorytmu przeznaczonego dla wokodera , który może interpolować informacje obecne w dziedzinie częstotliwości i czasu sygnałów audio, wykorzystując informacje fazowe wyodrębnione z transformacji częstotliwości. Algorytm komputerowy umożliwia modyfikacje w dziedzinie częstotliwości w cyfrowym pliku dźwiękowym (zwykle rozszerzenie czasowe / kompresja i zmiana wysokości dźwięku ).

Sercem wokodera fazowego jest krótkotrwała transformata Fouriera (STFT), zwykle kodowana przy użyciu szybkich transformat Fouriera . STFT przekształca reprezentację dźwięku w domenie czasu na reprezentację czasowo-częstotliwościową (faza „analizy”), umożliwiając modyfikacje amplitud lub faz określonych składowych częstotliwości dźwięku, przed resyntezą reprezentacji w domenie czasowo-częstotliwościowej w domenie czasu przez odwrotną STFT. Ewolucja w czasie resyntetyzowanego dźwięku może być zmieniana poprzez modyfikację pozycji czasowej ramek STFT przed operacją resyntezy, umożliwiając modyfikację skali czasowej oryginalnego pliku dźwiękowego.

Problem spójności fazowej

Głównym problemem, który należy rozwiązać we wszystkich przypadkach manipulacji STFT, jest fakt, że poszczególne składowe sygnału (sinusoidy, impulsy) będą rozłożone na wiele ramek i wiele lokalizacji częstotliwości STFT (pojemników). Dzieje się tak dlatego, że analiza STFT jest wykonywana przy użyciu nakładających się okien analizy . Okienkowanie powoduje wyciek widmowy tak, że informacje o poszczególnych składowych sinusoidalnych są rozłożone na sąsiednie pojemniki STFT. Aby uniknąć efektów granicznych zwężania się okien analizy, okna analizy STFT nakładają się w czasie. To nakładanie się czasu powoduje, że sąsiednie analizy STFT są silnie skorelowane (sinusoida obecna w ramce analizy w czasie „t” będzie również obecna w kolejnych klatkach). Problem transformacji sygnału za pomocą wokodera fazowego wiąże się z problemem polegającym na tym, że wszystkie modyfikacje dokonywane w reprezentacji STFT muszą zachować odpowiednią korelację między sąsiednimi przedziałami częstotliwości (koherencja pionowa) i ramkami czasowymi (koherencja pozioma). Z wyjątkiem skrajnie prostych dźwięków syntetycznych, te odpowiednie korelacje mogą być zachowane tylko w przybliżeniu, a od czasu wynalezienia wokodera fazowego badania skupiają się głównie na znalezieniu algorytmów, które zachowałyby pionową i poziomą spójność reprezentacji STFT po modyfikacji. Problem koherencji faz był badany przez dość długi czas, zanim pojawiły się odpowiednie rozwiązania.

Historia

Wokoder fazowy został wprowadzony w 1966 roku przez Flanagana jako algorytm, który zachowywałby poziomą spójność między fazami pojemników reprezentujących składowe sinusoidalne. Ten oryginalny wokoder fazowy nie uwzględniał pionowej spójności między sąsiednimi przedziałami częstotliwości, dlatego rozciąganie czasu w tym systemie generowało sygnały dźwiękowe, którym brakowało klarowności.

Optymalna rekonstrukcja sygnału dźwiękowego z STFT po modyfikacjach amplitudy została zaproponowana przez Griffina i Lima w 1984 roku. Algorytm ten nie uwzględnia problemu tworzenia spójnego STFT, ale pozwala znaleźć sygnał dźwiękowy, który ma STFT, który jest jak najbardziej zbliżony do zmodyfikowanego STFT, nawet jeśli zmodyfikowany STFT nie jest spójny (nie reprezentuje żadnego sygnału).

Problem spójności pionowej pozostawał głównym problemem dla jakości operacji skalowania czasu do 1999 roku, kiedy Laroche i Dolson zaproponowali sposób zachowania spójności fazowej w przedziałach widmowych. Propozycję Laroche'a i Dolsona należy postrzegać jako punkt zwrotny w historii wokoderów fazowych. Wykazano, że przy zapewnieniu pionowej spójności fazowej można uzyskać bardzo wysokiej jakości transformacje skalowania czasu.

Algorytm zaproponowany przez Laroche'a nie pozwalał na zachowanie pionowej spójności fazowej dla początków dźwięku (początków nut). Rozwiązanie tego problemu zaproponował Roebel.

Przykładem implementacji oprogramowania transformacji sygnału opartej na wokoderze fazowym przy użyciu środków podobnych do opisanych tutaj w celu uzyskania wysokiej jakości transformacji sygnału jest SuperVP firmy Ircam . [ wymagana weryfikacja ]

Użyj w muzyce

Brytyjski kompozytor Trevor Wishart wykorzystał analizy wokodera fazowego i transformacje ludzkiego głosu jako podstawę swojej kompozycji Vox 5 (część jego większego cyklu Vox ). Transfigured Wind amerykańskiego kompozytora Rogera Reynoldsa wykorzystuje wokoder fazowy do rozciągania w czasie dźwięków fletu. Muzyka JoAnn Kuchera-Morin jest jednym z najwcześniejszych i najszerzej wykorzystujących transformacje wokodera fazowego, na przykład w Dreampaths (1989).

Zobacz też

Linki zewnętrzne