Subiektywna jakość wideo

Subiektywna jakość wideo to jakość wideo doświadczana przez ludzi. Dotyczy tego, jak wideo jest postrzegane przez widza (zwanego także „obserwatorem” lub „podmiotem”) i określa jego opinię na temat określonej wideo . Jest to związane z dziedziną Jakości Doświadczeń . Pomiar subiektywnej jakości wideo jest konieczny, ponieważ wykazano, że obiektywne algorytmy oceny jakości, takie jak PSNR , słabo korelują z subiektywnymi ocenami. Subiektywne oceny mogą być również wykorzystywane jako podstawowa prawda do opracowywania nowych algorytmów.

Subiektywne testy jakości wideo to eksperymenty psychofizyczne , w których pewna liczba widzów ocenia określony zestaw bodźców. Testy te są dość kosztowne pod względem czasu (przygotowania i przeprowadzenia) oraz zasobów ludzkich i dlatego muszą być starannie zaprojektowane.

W subiektywnych testach jakości wideo zazwyczaj kody SRC („źródła”, tj. oryginalne sekwencje wideo) są poddawane działaniu różnych warunków ( HRC dla „hipotetycznych obwodów odniesienia”) w celu wygenerowania PVS („przetworzone sekwencje wideo”).

Pomiar

Główna koncepcja pomiaru subiektywnej jakości wideo jest podobna do oceny średniej oceny opinii (MOS) dla dźwięku . Aby ocenić subiektywną jakość wideo systemu przetwarzania wideo, zwykle podejmuje się następujące kroki:

  • Wybierz oryginalne, nienaruszone sekwencje wideo do testów
  • Wybierz ustawienia systemu, które mają zostać ocenione
  • Zastosuj ustawienia do kodu SRC, co spowoduje utworzenie sekwencji testowych
  • Wybierz metodę testową, opisując, w jaki sposób sekwencje są prezentowane widzom i jak zbierane są ich opinie
  • Zaproś panel widzów
  • Przeprowadź testy w określonym środowisku (np. w kontekście laboratoryjnym) i zaprezentuj każdemu widzowi każdy PVS w określonej kolejności
  • Oblicz wyniki oceny dla poszczególnych PVS, SRC i HRC, np. MOS

Na wyniki może wpływać wiele parametrów warunków oglądania, takich jak oświetlenie pomieszczenia, typ wyświetlacza, jasność, kontrast, rozdzielczość, odległość oglądania oraz wiek i poziom wykształcenia widzów. Dlatego zaleca się zgłaszanie tych informacji wraz z uzyskanymi ocenami.

Wybór źródła

Zazwyczaj system powinien być testowany z reprezentatywną liczbą różnych treści i cech treści. Na przykład można wybrać fragmenty treści z różnych gatunków, takich jak filmy akcji, programy informacyjne i kreskówki. Długość źródłowego wideo zależy od celu testu, ale zwykle stosuje się sekwencje nie krótsze niż 10 sekund.

Ilość ruchu i szczegółów przestrzennych powinna również obejmować szeroki zakres. Zapewnia to, że test zawiera sekwencje o różnej złożoności.

Źródła powinny być nieskazitelnej jakości. Nie powinno być żadnych widocznych artefaktów kodowania ani innych właściwości, które obniżyłyby jakość oryginalnej sekwencji.

Ustawienia

Projekt HRC zależy od badanego systemu. Zazwyczaj na tym etapie wprowadza się wiele zmiennych niezależnych, które są zróżnicowane na wielu poziomach. Na przykład, aby przetestować jakość kodeka wideo , niezależnymi zmiennymi mogą być oprogramowanie do kodowania wideo, docelowa przepływność i docelowa rozdzielczość przetwarzanej sekwencji.

Zaleca się wybranie ustawień, które skutkują ocenami obejmującymi pełny zakres jakości. Innymi słowy, zakładając bezwzględną skalę oceny kategorii , test powinien pokazywać sekwencje, które widzowie oceniliby od złych do doskonałych.

Widzowie

Liczba widzów

Widzowie są również nazywani „obserwatorami” lub „podmiotami”. Do badania należy zaprosić pewną minimalną liczbę widzów, gdyż większa liczba badanych zwiększa wiarygodność wyniku eksperymentu, np. poprzez zmniejszenie odchylenia standardowego uśrednionych ocen. Ponadto istnieje ryzyko konieczności wykluczenia podmiotów ze względu na nierzetelne zachowanie podczas oceniania.

Minimalna liczba osób, które są wymagane do subiektywnego badania jakości wideo, nie jest ściśle określona. Według ITU-T możliwa jest dowolna liczba z przedziału od 4 do 40, gdzie 4 to absolutne minimum ze względów statystycznych, a zaproszenie więcej niż 40 osób nie ma żadnej wartości dodanej. Ogólnie w eksperymencie powinno uczestniczyć co najmniej 15 obserwatorów. Nie powinni być bezpośrednio zaangażowani w ocenę jakości obrazu w ramach swojej pracy i nie powinni być doświadczonymi oceniającymi. W innych dokumentach stwierdza się również, że do uzyskania miarodajnych uśrednionych ocen potrzebnych jest co najmniej 10 przedmiotów.

Jednak większość zaleceń dotyczących liczby osób została opracowana w celu pomiaru jakości wideo napotykanej przez użytkownika telewizora domowego lub komputera PC, gdzie zakres i różnorodność zniekształceń jest zwykle ograniczona (np. tylko do artefaktów kodowania). Biorąc pod uwagę szeroki zakres i różnorodność uszkodzeń, które mogą wystąpić w filmach zarejestrowanych za pomocą urządzeń mobilnych i/lub przesyłanych przez sieci bezprzewodowe, ogólnie może być wymagana większa liczba osób.

Brunnström i Barkowsky przedstawili obliczenia do oszacowania minimalnej liczby niezbędnych przedmiotów na podstawie istniejących testów subiektywnych. Twierdzą, że aby zapewnić statystycznie istotne różnice przy porównywaniu ocen, może być potrzebna większa liczba badanych niż zwykle zalecana.

Wybór widza

Widzowie nie powinni być ekspertami w tym sensie, że nie są profesjonalistami w dziedzinie kodowania wideo lub dziedzin pokrewnych. Wymóg ten został wprowadzony w celu uniknięcia potencjalnej stronniczości podmiotu.

Zazwyczaj widzowie są sprawdzani pod kątem widzenia normalnego lub skorygowanego do normalnego za pomocą tablic Snellena . Ślepota barw jest często testowana za pomocą płytek Ishihara .

QoE trwa dyskusja , czy pochodzenie kulturowe, społeczne lub ekonomiczne widza ma znaczący wpływ na uzyskiwane subiektywne wyniki jakości wideo. Systematyczne badanie z udziałem sześciu laboratoriów w czterech krajach nie wykazało statystycznie istotnego wpływu języka i kultury / kraju pochodzenia osoby badanej na oceny jakości wideo.

Środowisko testowe

Subiektywne testy jakości można przeprowadzić w dowolnym środowisku. Jednak ze względu na możliwe czynniki wpływające z heterogenicznych kontekstów, zwykle zaleca się przeprowadzanie testów w neutralnym środowisku, takim jak dedykowane pomieszczenie laboratoryjne. Takie pomieszczenie może być dźwiękoszczelne, ze ścianami pomalowanymi na neutralny szary kolor, z odpowiednio skalibrowanymi źródłami światła. Kilka zaleceń określa te warunki. Wykazano, że środowiska kontrolowane powodują mniejszą zmienność uzyskanych wyników.

Crowdsourcing

Crowdsourcing był ostatnio używany do subiektywnej oceny jakości wideo, a bardziej ogólnie, w kontekście Quality of Experience . Tutaj widzowie wystawiają oceny na własnym komputerze, w domu, zamiast brać udział w subiektywnym teście jakości w laboratoriach. O ile ta metoda pozwala na uzyskanie większej liczby wyników niż w tradycyjnych testach subiektywnych przy niższych kosztach, o tyle ważność i rzetelność zebranych odpowiedzi musi być dokładnie sprawdzona.

Analiza wyników

Opinie widzów są zazwyczaj uśredniane do średniego wyniku opinii (MOS). W tym celu etykiety skal kategorycznych można przetłumaczyć na liczby. Na przykład odpowiedzi „zły” na „doskonały” można przypisać do wartości od 1 do 5, a następnie uśrednić. Wartości MOS należy zawsze podawać wraz z ich statystycznymi przedziałami ufności , aby można było ocenić ogólną zgodność między obserwatorami.

Badanie przedmiotowe

Często przed oceną wyników podejmowane są dodatkowe środki. Screening tematyczny to proces, w którym widzowie, których oceny zostaną uznane za nieważne lub niewiarygodne, są odrzucani z dalszej analizy. Nieprawidłowe oceny są trudne do wykrycia, ponieważ badani mogli oceniać bez oglądania filmu lub oszukiwać podczas testu. Ogólną wiarygodność podmiotu można określić za pomocą różnych procedur, z których niektóre są opisane w zaleceniach ITU-R i ITU-T. Na przykład korelacja między indywidualnymi wynikami danej osoby a ogólnym MOS ocenianym dla wszystkich sekwencji jest dobrym wskaźnikiem jej wiarygodności w porównaniu z pozostałymi uczestnikami testu.

Zaawansowane modele

Podczas oceniania bodźców ludzie podlegają uprzedzeniom. Może to prowadzić do różnych i niedokładnych zachowań związanych z ocenianiem, aw konsekwencji do wartości MOS, które nie są reprezentatywne dla „prawdziwej jakości” bodźca. W ostatnich latach zaproponowano zaawansowane modele, których celem jest formalne opisanie procesu oceniania, a następnie odzyskanie szumu w subiektywnych ocenach. Według Janowskiego i wsp. Badani mogą mieć uprzedzenia opinii, które generalnie zmieniają ich wyniki, a także nieprecyzyjność punktacji, która zależy od badanego i ocenianego bodźca. Li i in. zaproponowali rozróżnienie między niespójnością podmiotową a dwuznaczność treści .

Standaryzowane metody testowania

Istnieje wiele sposobów wyboru odpowiednich sekwencji, ustawień systemowych i metodologii testów. Kilka z nich zostało znormalizowanych. Są one dokładnie opisane w kilku zaleceniach ITU-R i ITU-T, między innymi ITU-R BT.500 i ITU-T P.910. Chociaż niektóre aspekty się pokrywają, zalecenie BT.500 ma swoje korzenie w transmisji, podczas gdy P.910 koncentruje się na treściach multimedialnych.

Standaryzowana metoda testowania zazwyczaj opisuje następujące aspekty:

  • jak długo trwa sesja eksperymentalna
  • gdzie odbywa się eksperyment
  • ile razy iw jakiej kolejności należy przeglądać każdy PVS
  • czy oceny są dokonywane raz na bodziec (np. po prezentacji), czy w sposób ciągły
  • czy oceny są bezwzględne, tj. odnoszą się tylko do jednego bodźca, czy względne (porównując dwa lub więcej bodźców)
  • w jakiej skali oceny są przyjmowane

Kolejne zalecenie, ITU-T P.913, daje naukowcom większą swobodę w przeprowadzaniu subiektywnych testów jakości w środowiskach innych niż typowe laboratorium badawcze, jednocześnie wymagając od nich zgłaszania wszystkich szczegółów niezbędnych do tego, aby takie testy były powtarzalne.

Przykłady

Poniżej wyjaśniono kilka przykładów standardowych procedur testowych.

Pojedynczy bodziec

  • ACR (Absolute Category Rating): każda sekwencja jest oceniana indywidualnie w skali ACR . Etykiety na skali to „zły”, „słaby”, „przeciętny”, „dobry” i „doskonały” i są one tłumaczone na wartości 1, 2, 3, 4 i 5 podczas obliczania MOS.
  • ACR-HR (Absolute Category Rating with Hidden Reference): odmiana ACR, w której oryginalna nienaruszona sekwencja źródłowa jest pokazana oprócz uszkodzonych sekwencji, bez informowania badanych o jej obecności (stąd „ukryta”). Oceny są obliczane jako wyniki różnicowe między wersją referencyjną a wersjami z upośledzeniem. Wynik różnicowy definiuje się jako wynik PVS minus wynik przyznany ukrytemu odnośnikowi plus liczba punktów na skali. Na przykład, jeśli PVS jest oceniany jako „słaby”, a odpowiadające mu ukryte odniesienie jako „dobry”, wówczas ocena wynosi . Kiedy te oceny są uśredniane, wynikiem nie jest MOS, ale różnicowy MOS („DMOS”).
  • SSCQE (ciągła ocena jakości pojedynczego bodźca): dłuższa sekwencja jest oceniana w sposób ciągły w czasie za pomocą suwaka (odmiana suwaka ) , na którym badani oceniają aktualną jakość. Próbki są pobierane w regularnych odstępach czasu, co skutkuje krzywą jakości w czasie, a nie pojedynczą oceną jakości.

Podwójny bodziec lub wielokrotny bodziec

  • DSCQS (Double Stimulus Continuous Quality Scale): widz widzi nieuszkodzone odniesienie i zaburzoną sekwencję w przypadkowej kolejności. Mogą ponownie przejrzeć sekwencje, a następnie ocenić jakość obu w ciągłej skali oznaczonej kategoriami ACR.
  • DSIS (Double Stimulus Impairment Scale) i DCR (Degradation Category Rating): oba odnoszą się do tej samej metody. Widz widzi nienaruszony film referencyjny, potem ten sam film z uszkodzonym filmem, a następnie jest proszony o głosowanie na drugi film za pomocą tzw. skali upośledzeń ( od „uszkodzenia są niezauważalne” do „uszkodzenia są bardzo irytujące”).
  • PC (Pair Comparison): zamiast porównywania sekwencji nieuszkodzonej i zaburzonej, porównywane są różne typy upośledzenia (HRC). Należy ocenić wszystkie możliwe kombinacje HRC.

Wybór metodologii

Wybór metody zależy w dużej mierze od celu testu i możliwych ograniczeń czasowych i innych zasobów. Niektóre metody mogą mieć mniej efektów kontekstowych (tj. gdy kolejność bodźców wpływa na wyniki), które są niepożądanymi odchyleniami testu. W ITU-T P.910 zauważono, że metody takie jak DCR powinny być stosowane do testowania wierności transmisji, zwłaszcza w systemach wysokiej jakości. ACR i ACR-HR lepiej nadają się do testów kwalifikacyjnych i – ze względu na dawanie bezwzględnych wyników – do porównywania systemów. Metoda PC ma dużą moc dyskryminacyjną, ale wymaga dłuższych sesji testowych.

Bazy danych

Wyniki subiektywnych testów jakości, w tym zastosowanych bodźców, nazywane są bazami danych . Instytucje badawcze udostępniły publicznie szereg subiektywnych baz danych dotyczących jakości obrazu i wideo opartych na takich badaniach. Te bazy danych – z których niektóre stały się de facto standardami – są używane na całym świecie przez inżynierów telewizyjnych, filmowych i wideo na całym świecie do projektowania i testowania obiektywnych modeli jakości, ponieważ opracowane modele można trenować na podstawie uzyskanych subiektywnych danych.

  1. ^ Samouczek ITU-T: Obiektywna percepcyjna ocena jakości wideo: Pełna telewizja referencyjna , 2004.
  2. ^ a b c d e f g h ITU-T Rec. P.910: Subiektywne metody oceny jakości wideo dla aplikacji multimedialnych , 2008.
  3. Bibliografia _ „O właściwościach subiektywnych ocen w eksperymentach z jakością wideo” . proc. Jakość doświadczeń multimedialnych , 2009.
  4. ^    Brunnström, Kjell; Barkowsky, Marcus (2018-09-25). „Statystyczna jakość analizy doświadczeń: planowanie liczebności próby i testowanie istotności statystycznej” . Journal of Electronic Imaging . 27 (5): 053013. Bibcode : 2018JEI....27e3013B . doi : 10.1117/1.jei.27.5.053013 . ISSN 1017-9909 . S2CID 53058660 .
  5. ^ a b   Pinson, MH; Janowski L.; Pepion R.; Huynh-czw, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (październik 2012). „Wpływ przedmiotów i środowiska na audiowizualne testy subiektywne: badanie międzynarodowe” (PDF) . IEEE Journal of Selected Topics in Signal Processing . 6 (6): 640–651. Bibcode : 2012ISTSP...6..640P . doi : 10.1109/jstsp.2012.2215306 . ISSN 1932-4553 . S2CID   10667847 .
  6. ^ a b ITU-T P.913: Metody subiektywnej oceny jakości wideo, jakości dźwięku i jakości audiowizualnej internetowego wideo i jakości dystrybucji telewizji w dowolnym środowisku , 2014.
  7. ^ a b c d e f ITU-R BT.500: Metodologia subiektywnej oceny jakości obrazu telewizyjnego , 2012.
  8. ^   Hossfeld, Tobiasz (15.01.2014). „Najlepsze praktyki w zakresie QoE Crowdtesting: ocena QoE z crowdsourcingiem” . Transakcje IEEE dotyczące multimediów . 16 (2): 541–558. doi : 10.1109/TMM.2013.2291663 . S2CID 16862362 .
  9. ^ Hossfeld, Tobiasz; Hirth, Maciej; Redi, Judyta; Mazza, Filippo; Korszunow, Paweł; Naderi, Babak; Seufert, Michael; Gardło, Bruno; Egger, Sebastian (październik 2014). „Najlepsze praktyki i zalecenia dotyczące QoE opartego na crowdsourcingu – wnioski wyciągnięte z grupy zadaniowej Qualinet „Crowdsourcing” ” . hal-01078761. {{ cite journal }} : Cite journal wymaga |journal= ( pomoc )
  10. ^    Janowski, Lucjan; Pinson, Małgorzata (2015). „Dokładność badanych w eksperymencie jakościowym: teoretyczny model podmiotowy” . Transakcje IEEE dotyczące multimediów . 17 (12): 2210–2224. doi : 10.1109/tmm.2015.2484963 . ISSN 1520-9210 . S2CID 22343847 .
  11. Bibliografia    _ Bampis, Christos G. (2017). „Odzyskaj subiektywne wyniki jakości z hałaśliwych pomiarów” . Konferencja dotycząca kompresji danych (DCC) 2017 . IEEE: 52–61. ar Xiv : 1611.01715 . doi : 10.1109/dcc.2017.26 . ISBN 9781509067213 . S2CID 14251604 .
  12. ^ Pinson, Małgorzata i Wilk, Stephen. „Porównywanie subiektywnych metodologii testowania jakości wideo” . Konferencja SPIE dotycząca komunikacji wideo i przetwarzania obrazu , Lugano, Szwajcaria, lipiec 2003 r.

Linki zewnętrzne