ReLaX-VQA: Extraktion von Residuenfragmenten und Schichtstapeln zur Verbesserung der Videoqualitätseinschätzung

Mit dem raschen Wachstum von Nutzergeneriertem Inhalt (UGC), der zwischen Nutzern und Teileplattformen ausgetauscht wird, wird die Notwendigkeit einer Videoqualitätseinschätzung im realen Einsatzkontext zunehmend offensichtlich. UGC wird in der Regel mit Verbrauchereinrichtungen aufgenommen und durch mehrere Runden der Kompression (Transkodierung) vor der Endnutzeranwendung verarbeitet. Daher sind traditionelle Qualitätsmetriken, die das Originalmaterial als Referenz verwenden, nicht geeignet. In dieser Arbeit schlagen wir ReLaX-VQA vor, ein neues Modell zur Beurteilung der Videoqualität ohne Referenz (NR-VQA), das die Herausforderungen bei der Bewertung vielfältigen Videoinhalts ohne Rückgriff auf die ursprünglichen unkomprimierten Videos angeht. ReLaX-VQA verwendet Bildunterschiede, um räumlich-zeitliche Fragmente intelligent auszuwählen, zusammen mit verschiedenen Ausdrücken räumlicher Merkmale, die den abgetasteten Frames zugeordnet sind. Dies ermöglicht eine bessere Erfassung von räumlichen und zeitlichen Schwankungen in der Qualität benachbarter Frames. Darüber hinaus verbessert das Modell die Abstraktion durch den Einsatz von Schichtstapeltechniken in tiefen neuronalen Netzwerken, insbesondere von Residual Networks und Vision Transformers. Umfangreiche Tests an vier UGC-Datensätzen zeigen, dass ReLaX-VQA bestehende NR-VQA-Methoden konsequent übertrifft und einen durchschnittlichen SRCC von 0,8658 und PLCC von 0,8873 erreicht. Offener Quellcode und trainierte Modelle, die weitere Forschung und Anwendungen im Bereich NR-VQA erleichtern werden, sind unter https://github.com/xinyiW915/ReLaX-VQA zu finden.