Kodowanie podpasm

Schemat przepływu sygnału kodowania i dekodowania podpasmowego

W przetwarzaniu sygnału kodowanie podpasmowe ( SBC ) to dowolna forma kodowania z transformacją , która dzieli sygnał na pewną liczbę różnych pasm częstotliwości , zwykle za pomocą szybkiej transformaty Fouriera , i koduje każde z nich niezależnie. Ta dekompozycja jest często pierwszym krokiem w kompresji danych dla sygnałów audio i wideo.

SBC jest podstawową techniką stosowaną w wielu popularnych algorytmach stratnej kompresji dźwięku, w tym MP3 .

Kodowanie sygnałów audio

Najprostszym sposobem cyfrowego kodowania sygnałów audio jest modulacja impulsowo-kodowa (PCM), która jest używana na płytach audio CD , nagraniach DAT i tak dalej. Cyfryzacja przekształca sygnały ciągłe w dyskretne poprzez próbkowanie amplitudy sygnału w jednolitych odstępach czasu i zaokrąglanie do najbliższej wartości możliwej do przedstawienia za pomocą dostępnej liczby bitów . Ten proces jest zasadniczo niedokładny i obejmuje dwa błędy: błąd dyskretyzacji wynikający z próbkowania w odstępach i błąd kwantyzacji wynikający z zaokrąglania.

Im więcej bitów jest używanych do reprezentacji każdej próbki, tym drobniejsza jest ziarnistość reprezentacji cyfrowej, a tym samym mniejszy błąd kwantyzacji. Takie błędy kwantyzacji można traktować jako rodzaj szumu, ponieważ w rzeczywistości są one różnicą między oryginalnym źródłem a jego reprezentacją binarną. Dzięki PCM słyszalne efekty tych błędów można złagodzić za pomocą ditheringu i wystarczającej liczby bitów, aby zapewnić, że szum jest wystarczająco niski, aby można go było zamaskować przez sam sygnał lub inne źródła szumu. Sygnał wysokiej jakości jest możliwy, ale kosztem dużej przepływności (np kbit/s dla jednego kanału audio CD). W efekcie wiele bitów jest marnowanych na kodowanie zamaskowanych części sygnału, ponieważ PCM nie zakłada, jak ludzkie ucho słyszy.

Techniki kodowania zmniejszają przepływność, wykorzystując znane cechy układu słuchowego. Klasyczną metodą jest nieliniowy PCM, taki jak algorytm μ-law . Małe sygnały są digitalizowane z większą szczegółowością niż duże; efektem jest dodanie szumu proporcjonalnego do siły sygnału. Format plików Au firmy Sun dla dźwięku jest popularnym przykładem kodowania mu-law. Użycie 8-bitowego kodowania mu-law obniżyłoby szybkość transmisji dźwięku CD na kanał do około 350 kbit/s, czyli o połowę w stosunku do standardowej szybkości. Ponieważ ta prosta metoda wykorzystuje efekty maskowania tylko w minimalnym stopniu, daje wyniki, które są często słyszalnie gorsze w porównaniu z oryginałem.

Podstawowe zasady

Użyteczność SBC najlepiej chyba zilustrować konkretnym przykładem. Gdy jest używany do kompresji dźwięku, SBC wykorzystuje maskowanie słuchowe w układzie słuchowym . Ludzkie uszy są zwykle wrażliwe na szeroki zakres częstotliwości, ale gdy wystarczająco głośny sygnał jest obecny na jednej częstotliwości, ucho nie usłyszy słabszych sygnałów na pobliskich częstotliwościach. Mówimy, że głośniejszy sygnał maskuje cichszy.

Podstawową ideą SBC jest umożliwienie redukcji danych poprzez odrzucenie informacji o częstotliwościach, które są maskowane. Wynik różni się od oryginalnego sygnału, ale jeśli odrzucone informacje zostaną starannie wybrane, różnica nie będzie zauważalna, a co ważniejsze, nie do przyjęcia.

Po pierwsze, bank filtrów cyfrowych dzieli widmo sygnału wejściowego na pewną liczbę (np. 32) podpasm. Model psychoakustyczny analizuje energię w każdym z tych podpasm, jak również w oryginalnym sygnale i oblicza progi maskowania na podstawie informacji psychoakustycznych. Każda z próbek podpasm jest kwantyzowana i kodowana tak, aby utrzymać szum kwantyzacji poniżej dynamicznie obliczanego progu maskowania. Ostatnim krokiem jest sformatowanie wszystkich skwantyzowanych próbek w grupy danych zwane ramkami, aby ułatwić ewentualne odtwarzanie przez dekoder.

Dekodowanie jest znacznie łatwiejsze niż kodowanie, ponieważ nie ma w nim żadnego modelu psychoakustycznego. Ramki są rozpakowywane, próbki podpasm są dekodowane, a mapowanie częstotliwościowo-czasowe rekonstruuje wyjściowy sygnał audio.

Aplikacje

Począwszy od późnych lat 80. organ normalizacyjny Moving Picture Experts Group (MPEG) opracował standardy kodowania zarówno audio, jak i wideo. Na przykład kodowanie podpasm leży u podstaw popularnego formatu MP3 (bardziej znanego jako MPEG-1 Audio Layer III ).

Kodowanie podpasmowe jest stosowane w kodeku G.722 , który wykorzystuje adaptacyjną różnicową modulację impulsową podpasmową (SB- ADPCM ) z przepływnością 64 kbit/s. W technice SB-ADPCM pasmo częstotliwości jest dzielone na dwa podpasma (wyższe i niższe), a sygnały w każdym podpasmie są kodowane przy użyciu ADPCM.

Linki zewnętrzne

Samouczek kodowania podpasm