Percepcyjna ocena jakości mowy

Perceptual Evaluation of Speech Quality ( PESQ ) to rodzina standardów obejmująca metodologię testową do automatycznej oceny jakości mowy doświadczanej przez użytkownika systemu telefonicznego . Został znormalizowany jako Rekomendacja ITU-T P.862 w 2001 roku. PESQ jest używany do obiektywnego testowania jakości głosu przez producentów telefonów, sprzedawców sprzętu sieciowego i operatorów telekomunikacyjnych. Jego użycie wymaga licencji. Pierwsza edycja następcy PESQ POLQA (Rekomendacja ITU-T P.863) weszła w życie w 2011 roku.

Zakres pomiaru

PESQ został opracowany w celu modelowania subiektywnych testów powszechnie stosowanych w telekomunikacji (np. Rekomendacja ITU-T P.800) do oceny jakości głosu postrzeganej przez ludzi. W związku z tym wykorzystuje prawdziwe próbki głosu jako sygnały testowe. Aby scharakteryzować jakość odsłuchu postrzeganą przez użytkowników, niezwykle ważne jest załadowanie nowoczesnych urządzeń telekomunikacyjnych sygnałami przypominającymi mowę. Wiele systemów jest zoptymalizowanych pod kątem mowy i reaguje w nieprzewidywalny sposób na sygnały inne niż mowa (np. tony, hałas). Wytyczne dotyczące prawidłowego stosowania próbek do badania głosu są określone w przewodniku stosowania PESQ zawartym w Rekomendacji ITU-T P.862.3.

Genealogia norm pokrewnych

Rodzina w pełni referencyjnych obiektywnych pomiarów jakości głosu ITU-T rozpoczęła się w 1997 r. Zaleceniem ITU-T P.861 (PSQM), które zostało zastąpione przez ITU-T P.862 (PESQ) w 2001 r. P.862 został później uzupełniony o zalecenia ITU-T P.862.1 (mapowanie wyników PESQ na skalę MOS), ITU-T P.862.2 ( pomiary szerokopasmowe) oraz ITU-T P.862.3 (przewodnik po aplikacjach). Pierwsza edycja ITU-T P.863 ( POLQA ) weszła w życie w 2011 roku. Przewodnik stosowania Rekomendacji ITU-T P.863 został zatwierdzony w 2019 roku i opublikowany jako ITU-T P.863.1.

Oprócz wymienionych powyżej pełnych metod referencyjnych, lista obiektywnych standardów pomiaru jakości głosu ITU-T obejmuje również ITU-T P.563 (algorytm bez odniesienia).

Testowanie typologii

W zależności od informacji udostępnianych algorytmowi, algorytmy testowania jakości głosu można podzielić na dwie główne kategorie:

  • Algorytm „pełnego odniesienia” (FR) ma dostęp do oryginalnego sygnału odniesienia i wykorzystuje go do porównania (tj. analizy różnic). Może porównywać każdą próbkę sygnału referencyjnego (po stronie mówiącego) z każdą odpowiednią próbką zdegradowanego sygnału (po stronie słuchacza). Pomiary FR zapewniają najwyższą dokładność i powtarzalność, ale można je stosować tylko do dedykowanych testów w sieciach działających na żywo (np. narzędzia do testowania napędów do testów porównawczych sieci komórkowych).
  • Algorytm „bez odniesienia” (NR) wykorzystuje tylko zdegradowany sygnał do oszacowania jakości i nie ma informacji o oryginalnym sygnale odniesienia. Algorytmy NR (np. zalecenie ITU-T P.563) są jedynie oszacowaniami o niskiej dokładności, ponieważ charakterystyka głosu pochodzenia (np. mówiący mężczyzna lub kobieta, szum tła, brak głosu) źródła odniesienia jest całkowicie nieznana. Popularny wariant algorytmów NR nawet nie analizuje zdekodowanego sygnału audio, ale działa na analizie cyfrowego strumienia bitów na poziomie pakietu IP. W konsekwencji pomiar ogranicza się do analizy strumienia transportowego.

PESQ jest algorytmem pełnego odniesienia i analizuje sygnał mowy próbka po próbce po czasowym wyrównaniu odpowiednich fragmentów sygnału odniesienia i sygnału testowego. PESQ można zastosować w celu zapewnienia kompleksowej oceny jakości sieci (E2E) lub scharakteryzowania poszczególnych elementów sieci.

Wyniki PESQ zasadniczo modelują średnie wyniki opinii (MOS), które obejmują skalę od 1 (zła) do 5 (doskonała). Funkcja mapowania do MOS-LQO jest opisana w zaleceniu ITU-T P.862.1.

Zobacz też

http://www.aes.org/e-lib/browse.cfm?elib=11063

http://www.aes.org/e-lib/browse.cfm?elib=11062

Linki zewnętrzne