Percepcyjna obiektywna analiza jakości słuchania

Perceptual Objective Listening Quality Analysis ( POLQA ) to robocza nazwa standardu ITU-T obejmującego model przewidywania jakości mowy za pomocą analizy cyfrowych sygnałów mowy. Model ten został znormalizowany jako Rekomendacja ITU-T P.863 (Percepcyjna obiektywna ocena jakości odsłuchu) w 2011 roku. Druga edycja standardu pojawiła się w 2014 roku, a trzecia, obecnie obowiązująca edycja została przyjęta w 2018 roku pod tytułem Percepcyjna obiektywna prognoza jakości odsłuchu.

Zakres pomiaru

POLQA obejmuje model do przewidywania jakości mowy za pomocą cyfrowej analizy sygnału mowy. Prognozy tych obiektywnych pomiarów powinny być jak najbardziej zbliżone do subiektywnych wyników jakości uzyskanych w subiektywnych testach odsłuchowych. Zwykle przewiduje się średni wynik opinii (MOS). POLQA wykorzystuje prawdziwą mowę jako bodziec testowy do oceny sieci telefonicznych.

Możliwości technologii

POLQA jest następcą PESQ (Rekomendacja ITU-T P.862). POLQA unika słabości obecnego modelu P.862 i jest rozszerzona w kierunku obsługi sygnałów audio o większej przepustowości. Dalsze ulepszenia ukierunkowane są na obsługę sygnałów nazywanych czasem i sygnałów z wieloma odmianami opóźnień. Podobnie jak P.862, POLQA obsługuje pomiary w powszechnym paśmie telefonicznym (300-3400 Hz), ale dodatkowo posiada drugi tryb pracy do oceny HD-Voice w szerokopasmowych i superszerokopasmowych sygnałach mowy (50-14000 Hz). Celem POLQA jest również ocena sygnałów mowy rejestrowanych akustycznie przez sztuczną głowę z symulatorami ust i uszu.

Historia rozwoju

Działalność POLQA rozpoczęła się w ITU-T na początku 2006 roku pod roboczą nazwą P.OLQA. W połowie 2009 roku rozpoczęto konkurs na ocenę kilku kandydujących modeli. W maju 2010 r. ITU-T wybrał modele kandydatów z trzech firm (OPTICOM, SwissQual / Rohde & Schwarz i TNO ( Holandzka Organizacja Stosowanych Badań Naukowych )). Trzy firmy połączyły swoje podejścia do jednego modelu, który został przyjęty jako Rekomendacja ITU-T P.863.

Genealogia norm pokrewnych

Rodzina w pełni referencyjnych obiektywnych pomiarów jakości głosu ITU-T rozpoczęła się w 1997 r. Zaleceniem ITU-T P.861 (PSQM), które zostało zastąpione przez ITU-T P.862 (PESQ) w 2001 r. P.862 został później uzupełniony o zalecenia ITU-T P.862.1 (mapowanie wyników PESQ na skalę MOS), ITU-T P.862.2 ( pomiary szerokopasmowe) oraz ITU-T P.862.3 (przewodnik po aplikacjach). Pierwsze wydanie ITU-T P.863 (POLQA) weszło w życie w 2011 roku. Przewodnik stosowania Rekomendacji ITU-T P.863 został zatwierdzony w 2019 roku i opublikowany jako ITU-T P.863.1.

Oprócz wymienionych powyżej pełnych metod referencyjnych, lista obiektywnych standardów pomiaru jakości głosu ITU-T obejmuje również ITU-T P.563 (algorytm bez odniesienia).

Testowanie typologii

POLQA, podobnie jak P.862 PESQ, jest algorytmem Full Reference (FR), który ocenia zdegradowany lub przetworzony sygnał mowy w stosunku do sygnału oryginalnego. Porównuje każdą próbkę sygnału referencyjnego (po stronie mówiącego) z każdą odpowiednią próbką sygnału zdegradowanego (po stronie słuchacza). Percepcyjne różnice między obydwoma sygnałami są oceniane jako różnice. Percepcyjny model psychoakustyczny opiera się na podobnych modelach ludzkiej percepcji jak MP3 czy AAC. Zasadniczo sygnały są analizowane w dziedzinie częstotliwości (w pasmach krytycznych) po zastosowaniu funkcji maskujących. Niemaskowane różnice między dwiema reprezentacjami sygnału będą liczone jako zniekształcenia. Na koniec skumulowane zniekształcenia w pliku mowy są odwzorowywane na skalę jakości od 1 do 5, jak zwykle w przypadku testów MOS. Pomiary FR zapewniają najwyższą dokładność i powtarzalność, ale można je stosować tylko do dedykowanych testów w sieciach na żywo (np. narzędzia do testowania napędów do testów porównawczych sieci komórkowych).

POLQA jest pełnym algorytmem referencyjnym i analizuje sygnał mowy próbka po próbce po czasowym dopasowaniu odpowiednich fragmentów sygnału referencyjnego i testowego. POLQA można zastosować do kompleksowej oceny jakości sieci (E2E) lub do scharakteryzowania poszczególnych elementów sieci.

Wyniki POLQA zasadniczo modelują średnie wyniki opinii (MOS), które obejmują skalę od 1 (zły) do 5 (doskonały).

Opis algorytmu POLQA

Wejściami algorytmu są dwa przebiegi reprezentowane przez dwa wektory danych zawierające 16-bitowe próbki PCM. Pierwszy wektor zawiera próbki (niezniekształconego) sygnału odniesienia, podczas gdy drugi wektor zawiera próbki sygnału zdegradowanego. Algorytm POLQA składa się z bloku wyrównania czasowego, estymatora częstotliwości próbkowania konwertera częstotliwości próbkowania, który służy do kompensacji różnic w częstotliwości próbkowania sygnałów wejściowych oraz rzeczywistego modelu rdzenia, który wykonuje obliczenia MOS. W pierwszym etapie określa się opóźnienie między dwoma sygnałami wejściowymi i szacuje się częstotliwość próbkowania tych dwóch sygnałów względem siebie. Oszacowanie częstotliwości próbkowania jest oparte na informacjach o opóźnieniu obliczonych przez wyrównanie czasowe. Jeśli częstotliwość próbkowania różni się o więcej niż około 1%, sygnał o wyższej częstotliwości próbkowania jest próbkowany w dół. Po każdym kroku wyniki są zapisywane wraz ze średnim wskaźnikiem niezawodności opóźnienia, który jest miarą jakości oszacowania opóźnienia. Ostatecznie wybiera się wynik z etapu ponownego próbkowania, który dał najwyższą ogólną niezawodność. Po określeniu prawidłowego opóźnienia i skompensowaniu różnic w częstotliwości próbkowania sygnały i informacje o opóźnieniu są przekazywane do modelu rdzenia, który oblicza odczuwalność oraz irytację zniekształceń i odwzorowuje je na skalę MOS. Znacznie bardziej szczegółowy i wyczerpujący opis algorytmu można znaleźć w. Kilka następnych sekcji ma na celu jedynie przegląd podstaw wewnętrznej struktury POLQA.

Podstawowy model

Głównym elementem modelu podstawowego jest model percepcyjny, który jest obliczany czterokrotnie przy użyciu różnych parametrów, aby poradzić sobie z różnymi typami głównych zniekształceń. Te typy zniekształceń można podzielić na zniekształcenia addytywne i zniekształcenia odejmowane. W przypadku obu typów dokonuje się dalszego rozróżnienia między efektami bardzo silnymi i słabszymi. Dane wejściowe do modeli percepcyjnych to kształty fal i informacje o opóźnieniu. Wyjściem jest Disturbance Density, która jest miarą dostrzegalności zniekształceń w sygnałach. Model percepcyjny dla głównej gałęzi generuje również wskaźniki zniekształceń częstotliwości, zniekształceń szumu i pogłosu. Kolejny przełącznik, który jest wyzwalany przez detektor w przypadku bardzo silnych zniekształceń, redukuje cztery wartości gęstości zakłóceń do dwóch, jedną dla zniekształceń dodanych i jedną dla odjętych zniekształceń. Jak dotąd Gęstość Zakłóceń jest wskaźnikiem jedynie odczuwalności zniekształceń, a efekty poznawcze nie są jeszcze brane pod uwagę. Aspekty poznawcze są jednak ważne, gdy ludzie są proszeni o ocenę jakości tego, co mogą postrzegać. Zasadniczo przekształcają miarę odczuwalności Gęstość zakłóceń w miarę irytacji. Ta konwersja jest wykonywana poprzez korygowanie wartości gęstości zakłóceń dla sytuacji z:

  • Znaczące różnice poziomów
  • Wiele powtórzeń kadru
  • Mocna barwa
  • Widmowa płaskość
  • Przełączanie szumów podczas przerw w mówieniu
  • Wiele odmian opóźnień
  • Silne zmiany Gęstości Zakłóceń w czasie
  • Silne wahania głośności sygnałów

W tym kroku obliczane są również dwa kolejne wskaźniki, jeden dla płaskości widma i jeden dla zmian poziomu.

Do tej pory wszystkie operacje były wykonywane na klatkach o czasie trwania około 32 i 43ms (w zależności od częstotliwości próbkowania i przy zastosowaniu nakładania się 50%) i dla każdego pasma Bark z osobna. Na ostatnim etapie wszystkie wskaźniki są integrowane w czasie i częstotliwości w celu obliczenia ostatecznej wartości MOS LQO.

Model percepcyjny

Kluczową koncepcją w modelu percepcyjnym jest idealizacja. Ideą tego jest to, że POLQA ma symulować Absolute Category Rating (ACR). Jednak w teście ACR badani nie mają porównania z rzeczywistym sygnałem odniesienia, gdy oceniają sygnał mowy. Zamiast tego zakłada się, że badani rozumieją, jak brzmi idealny sygnał i używają tego jako własnego odniesienia. W konsekwencji, jeśli zostaną poproszeni o ocenę sygnału odniesienia, który nie jest absolutnie doskonały (np. ma zły poziom głośności lub zawiera zbyt dużo barwy, szumu lub pogłosu), zostanie on oceniony gorzej niż doskonały. Dlatego na etapie idealizacji POLQA koryguje niewielkie niedoskonałości sygnałów odniesienia w celu uzyskania tego samego idealnego odniesienia do porównania ze zdegradowanym sygnałem, jakiego używaliby ludzie w swoich umysłach. Podobnie jak w przypadku idealizacji sygnału odniesienia, niektóre zniekształcenia obecne w sygnale zdegradowanym, które są trudno zauważalne w teście ACR, zostaną częściowo skompensowane (np. niewielkie przesunięcia tonu, liniowe zniekształcenia częstotliwości). Model percepcyjny rozpoczyna się od przeskalowania sygnału odniesienia do idealnego średniego poziomu mowy czynnej wynoszącego około -26dBov. Takie skalowanie nie jest wykonywane na zdegradowanym sygnale. Przyjmuje się, że każde odchylenie poziomu zdegradowanego sygnału od idealnego -26dBov należy zaliczyć jako degradację sygnału. Następnie widma obu sygnałów są obliczane przy użyciu FFT z 50% zachodzącymi na siebie ramkami o czasie trwania od 32 ms do 43 ms (w zależności od częstotliwości próbkowania). Następnie zostaną wyeliminowane małe przesunięcia tonu zdegradowanego sygnału (Dewarping częstotliwości). Teraz widma zostaną przekształcone w psychoakustycznie umotywowaną skalę tonu, łącząc poszczególne linie widmowe (pojemniki FFT) w tak zwane pasma krytyczne. Zastosowana skala tonu jest podobna do skali Barka ze średnią rozdzielczością 0,3 Barka na pasmo. Rezultatem jest gęstość mocy dźwięku. Na tym etapie obliczane są pierwsze trzy wskaźniki zniekształceń dla zniekształceń odpowiedzi częstotliwościowej, szumu addytywnego i pogłosu pomieszczenia. Następnie wyprowadzane jest wzbudzenie każdego pasma. Obejmuje to modelowanie efektów maskowania zarówno w dziedzinie częstotliwości, jak iw dziedzinie czasu. Rezultatem jest dla każdej klatki każdego sygnału wewnętrzna reprezentacja głowy, która z grubsza wskazuje, jak głośno byłaby odbierana każda składowa częstotliwości. Teraz następuje kolejny krok idealizacji sygnału odniesienia poprzez odfiltrowanie nadmiernej barwy i niskiego poziomu szumów stacjonarnych. Jednocześnie liniowe zniekształcenia częstotliwości i szumy stacjonarne są częściowo usuwane ze zdegradowanego sygnału. Odjęcie wyidealizowanych wzbudzeń ostatecznie prowadzi do gęstości zniekształceń, która jest miarą słyszalności zniekształceń.

POLQA w badaniach

Artykuł, w którym wykorzystano POLQA do zbadania wpływu języka tonalnego i słuchania obcego na pomiar jakości mowy, można znaleźć w.

Zobacz też