HVS überarbeitet: Ein umfassender Rahmen zur Bewertung der Videoqualität

Die Videoqualität ist ein zentrales Anliegen für Anbieter von Video-Dienstleistungen. In den letzten Jahren haben sich Techniken zur Bewertung der Videoqualität (Video Quality Assessment, VQA), die auf tiefen konvolutionellen neuronalen Netzen (CNNs) basieren, rasch entwickelt. Obwohl bestehende Ansätze bestrebt sind, Kenntnisse des menschlichen visuellen Systems (Human Visual System, HVS) in die VQA einzubringen, bestehen weiterhin Einschränkungen, die eine vollständige Ausnutzung des HVS verhindern, darunter ein unvollständiges Modell aufgrund einer geringen Anzahl an Merkmalen sowie unzureichende Verbindungen zwischen diesen Merkmalen. Um diese Einschränkungen zu überwinden, wird im vorliegenden Artikel das HVS erneut betrachtet, wobei fünf repräsentative Merkmale berücksichtigt und deren Wechselwirkungen neu strukturiert werden. Auf Basis des überarbeiteten HVS wird ein no-reference-VQA-Framework namens HVS-5M (NRVQA-Framework mit fünf Modulen, die fünf HVS-Merkmale nachahmen) vorgestellt. Es basiert auf einem Domain-Fusion-Design mit fortschrittlichen Netzwerkarchitekturen. Im räumlichen Bereich wendet das Saliency-Modul SAMNet an, um eine Saliency-Karte zu generieren. Anschließend nutzen das Content-Dependency-Modul und das Edge-Masking-Modul jeweils ConvNeXt, um räumliche Merkmale zu extrahieren, die durch die Saliency-Karte aufmerksamkeitsgesteuert gewichtet werden, um jene Regionen hervorzuheben, die für den Menschen von Interesse sein könnten. Im zeitlichen Bereich ergänzt das Motion-Perception-Modul die statischen räumlichen Merkmale durch die Nutzung von SlowFast zur Gewinnung dynamischer zeitlicher Merkmale. Zudem simuliert das Temporal-Hysteresis-Modul mittels TempHyst die Gedächtnisfunktion des Menschen und bewertet schließlich die Gesamtqualität auf Basis der fusionierten Merkmale aus räumlichem und zeitlichem Bereich. Umfangreiche Experimente zeigen, dass das vorgeschlagene HVS-5M die derzeit besten VQA-Methoden übertrifft. Zusätzlich werden Ablationsstudien durchgeführt, um die Wirksamkeit jedes einzelnen Moduls innerhalb des vorgeschlagenen Frameworks zu bestätigen.