Percepcyjna ocena jakości dźwięku

Perceptual Evaluation of Audio Quality ( PEAQ ) to znormalizowany algorytm obiektywnego pomiaru postrzeganej jakości dźwięku , opracowany w latach 1994-1998 przez wspólne przedsięwzięcie ekspertów w ramach Grupy Zadaniowej 6Q Sektora Radiokomunikacji Międzynarodowego Związku Telekomunikacyjnego ( ITU-R ). Został pierwotnie wydany jako zalecenie ITU-R BS.1387 w 1998 r., A ostatnia aktualizacja w 2001 r. Wykorzystuje oprogramowanie do symulacji właściwości percepcyjnych ludzkiego ucha a następnie integruje wiele zmiennych wyjściowych modelu w jedną metrykę. PEAQ charakteryzuje postrzeganą jakość dźwięku, jaką badani wykonaliby w teście odsłuchowym zgodnie z ITU-R BS.1116. Wyniki PEAQ zasadniczo modelują średnie wyniki opinii, które obejmują skalę od 1 (zła) do 5 (doskonała).

Motywacja

Konieczność oszczędzania szerokości pasma doprowadziła do rozwoju kompresji przesyłanych danych audio. Różne metody kodowania usuwają zarówno redundancję, jak i percepcyjną nieistotność sygnału audio, dzięki czemu szybkość transmisji bitów wymagana do zakodowania sygnału jest znacznie zmniejszona. Biorą pod uwagę wiedzę na temat ludzkiej percepcji słuchowej i zwykle osiągają zmniejszoną przepływność poprzez ignorowanie informacji dźwiękowych, których większość słuchaczy prawdopodobnie nie usłyszy. Tradycyjne pomiary dźwięku, takie jak charakterystyka częstotliwościowa oparta na odchyleniach sinusoidalnych, S/N, THD+N, niekoniecznie dobrze korelują z jakością kodeka audio. Model psychoakustyczny należy wykorzystać do przewidywania, w jaki sposób informacje są maskowane przez głośniejsze treści audio sąsiadujące w czasie i częstotliwości.

Ponieważ subiektywne testy odsłuchowe są czasochłonne, kosztowne i niepraktyczne w codziennym użytkowaniu, korzystne było zastąpienie testów odsłuchowych obiektywnymi metodami komputerowymi. Kierowana przez grupę zadaniową ITU-R 6Q, grupa wiodących ekspertów w dziedzinie jakości dźwięku opracowała nowy obiektywny model jakości dźwięku: PEAQ. Tymi współtwórcami byli:

Zasady

W kodowaniu percepcyjnym fundamentalne znaczenie ma określenie poziomu szumu, który można wprowadzić do sygnału, zanim stanie się on słyszalny. Ponieważ ludzki układ słuchowy jest wysoce nieliniowy, poziomy hałasu zmieniają się wraz z charakterystyką czasową i częstotliwościową sygnału audio. Badania psychoakustyczne mogą dostarczyć kryteriów progowych dla różnych zdarzeń akustycznych i wynikających z nich postrzeganych dźwięków. Kluczem jest maskowanie , które opisuje efekt, jaki dźwięk wytwarza w innym równoczesnym dźwięku. Maskowanie zależy od składu widmowego zarówno sygnału maskującego, jak i sygnału maskującego oraz innych zmian w czasie. Podstawowy schemat blokowy percepcyjnego systemu kodowania pokazano na rysunku.

thumbs

Sygnał wejściowy jest rozkładany na podpróbkowane składowe widmowe. Dla każdej próbki przeprowadzane jest oszacowanie rzeczywistego zamaskowanego progu przy użyciu reguł znanych z psychoakustyki. To jest percepcyjny model systemu kodowania. Składowe widmowe są kwantyzowane i kodowane, utrzymując szum kwantyzacji poniżej maskowanego progu. Na koniec tworzony jest strumień bitów .

Analiza wyników opiera się na subiektywnym stopniu różnicy. Porównuje testowany sygnał z oryginalnym sygnałem odniesienia.

modele

Model podąża za podstawowymi właściwościami układu słuchowego i rozróżnia etapy efektów fizjologicznych i psychoakustycznych. W pierwszej części zamodelowano budowę sygnału za pomocą dyskretnej transformaty Fouriera i banków filtrów. Druga część zapewnia przetwarzanie poznawcze, tak jak robi to ludzki mózg. Następny obraz przedstawia prosty schemat blokowy relacji między ludzkim systemem audio a obiektywnym modelem psychoakustycznym.

thumbs

Z porównania modelu sygnału testowego z (oryginalnym) sygnałem odniesienia wyprowadza się szereg zmiennych wyjściowych modelu. Każda zmienna wyjściowa modelu może mierzyć różne wymiary psychoakustyczne. W końcowym etapie zmienne wyjściowe modelu są łączone w celu uzyskania wyniku, który radzi sobie z subiektywną oceną jakości.

Istnieją dwa warianty modelu. Wersja podstawowa (mniej wymagająca przetwarzania) została opracowana tak, aby była wystarczająco szybka do monitorowania w czasie rzeczywistym. Wersja Advanced jest bardziej wymagająca obliczeniowo i może dawać nieco dokładniejsze wyniki.

Licencja

Technologia PEAQ zalecana przez ITU-R Rec. BS.1387 jest chroniony kilkoma patentami i jest dostępny na licencji wraz z oryginalnym kodem do zastosowań komercyjnych zgodnie z uczciwymi, rozsądnymi i niedyskryminacyjnymi zasadami ITU warunki. Wczesna implementacja modelu podstawowego, nazwana EAQUAL, została przerwana w 2002 roku z powodu roszczeń o naruszenie patentu. Do użytku edukacyjnego istnieje bezpłatny wieloplatformowy program o nazwie Peaqb, który realizuje te same funkcje w ograniczony sposób, ponieważ nie został zweryfikowany z danymi ITU. Inna niezweryfikowana implementacja podstawowego modelu PEAQ do użytku edukacyjnego, PQevalAudio, jest dostępna w laboratorium TSP na Uniwersytecie McGill.

Zobacz też

Linki zewnętrzne