Hohe Bildwiederholungsrate zur Bewertung der Videoqualität mittels VMAF und entropischer Unterschiede

Die steigende Beliebtheit von Streaming-Videos mit Live-Inhalten und hohem Action-Charakter hat ein wachsendes Interesse an Videos mit hoher Bildwiederholfrequenz (High Frame Rate, HFR) geweckt. In dieser Arbeit behandeln wir das Problem der bildwiederholfrequenzabhängigen Bewertung der Videoqualität (Frame Rate Dependent Video Quality Assessment, VQA), wenn die zu vergleichenden Videos unterschiedliche Bildwiederholfrequenzen und Kompressionsfaktoren aufweisen. Aktuelle VQA-Modelle wie VMAF zeigen eine hervorragende Korrelation mit wahrnehmungsbasierten Urteilen, sofern die zu vergleichenden Videos dieselbe Bildwiederholfrequenz besitzen und herkömmliche Störungen wie Kompression, Skalierung usw. aufweisen. Allerdings erfordert dieser Ansatz bei Vergleichen von Videos mit unterschiedlichen Bildwiederholfrequenzen zusätzliche Vorverarbeitungsschritte, die die Gesamtleistung potenziell einschränken können. Kürzlich wurde das Generalized Entropic Difference (GREED)-Modell vorgestellt, um Artefakte zu berücksichtigen, die durch Veränderungen der Bildwiederholfrequenz entstehen, und zeigte eine überlegene Leistung auf der LIVE-YT-HFR-Datenbank, die frame rate-abhängige Artefakte wie Judder, Stroboskopie usw. enthält. In diesem Paper stellen wir eine einfache Erweiterung vor, bei der die Merkmale von VMAF und GREED fusioniert werden, um die Vorteile beider Modelle zu nutzen. Durch verschiedene Experimente zeigen wir, dass der vorgeschlagene Fusionsansatz effizientere Merkmale für die Vorhersage der frame rate-abhängigen Videoqualität liefert. Zudem evaluieren wir den gefussten Merkmalsatz auf Standard-VQA-Datenbanken für nicht-HFR-Videos und erreichen eine bessere Leistung als sowohl GREED als auch VMAF, was darauf hinweist, dass die kombinierten Merkmale ergänzende wahrnehmungsbezogene Qualitätsinformationen erfassen.