DisCoVQA: Temporale Verzerrungs-Inhalts-Transformer für die Videoqualitätsbewertung

Die zeitlichen Beziehungen zwischen Bildern und deren Einfluss auf die Videoqualitätsbewertung (VQA) werden in bestehenden Arbeiten weiterhin nur unzureichend untersucht. Diese zeitlichen Beziehungen führen zu zwei wichtigen Arten von Effekten für die Videoqualität. Erstens verursachen bestimmte zeitliche Variationen (wie Schütteln, Flimmern oder plötzliche Szenenwechsel) zeitliche Verzerrungen und damit zusätzliche Qualitätsverschlechterungen, während andere Variationen (z. B. solche, die mit bedeutungsvollen Ereignissen verbunden sind) dies nicht tun. Zweitens weist das menschliche visuelle System häufig unterschiedliche Aufmerksamkeit auf Bilder mit unterschiedlichem Inhalt, was deren unterschiedliche Bedeutung für die Gesamtvideoqualität zur Folge hat. Ausgehend von der herausragenden Fähigkeit von Transformers zur Modellierung zeitlicher Reihen entwickeln wir eine neuartige und effektive, auf Transformers basierende VQA-Methode, um diese beiden Probleme zu adressieren. Um zeitliche Variationen besser zu unterscheiden und somit zeitliche Verzerrungen gezielt zu erfassen, entwerfen wir ein auf Transformers basierendes räumlich-zeitliches Verzerrungsextraktionsmodul (Spatial-Temporal Distortion Extraction, STDE). Um die zeitliche Aufmerksamkeit für Qualitätsbewertungen zu modellieren, schlagen wir einen encoder-decoder-ähnlichen zeitlichen Inhaltstransformer (Temporal Content Transformer, TCT) vor. Zudem führen wir eine zeitliche Abtastung von Merkmalen ein, um die Eingabedauer für den TCT zu reduzieren und somit die Lernwirksamkeit und Effizienz dieses Moduls zu verbessern. Bestehend aus dem STDE- und dem TCT-Modul erreicht das vorgeschlagene Modell Temporal Distortion-Content Transformers for Video Quality Assessment (DisCoVQA) state-of-the-art-Leistungen auf mehreren VQA-Benchmark-Datensätzen, ohne zusätzliche vortrainierte Datensätze zu benötigen, und weist bis zu 10 % bessere Generalisierungsfähigkeit als bestehende Methoden auf. Wir führen zudem umfangreiche Ablationsstudien durch, um die Wirksamkeit jedes einzelnen Modulbestandteils zu belegen, und präsentieren Visualisierungen, die zeigen, dass die vorgeschlagenen Module unsere intendierten Ziele bei der Modellierung zeitlicher Aspekte tatsächlich erreichen. Die Quellcodes und vortrainierten Gewichte werden in Kürze veröffentlicht werden.