Aufmerksamkeit hilft CNNs, besser zu sehen: Auf Aufmerksamkeit basierendes hybrides Netzwerk zur Bildqualitätsbewertung

Das Bildqualitätsbewertungsverfahren (Image Quality Assessment, IQA) zielt darauf ab, die menschliche Wahrnehmung der Bildqualität quantitativ zu erfassen. Leider tritt ein Leistungsabfall auf, wenn die Verzerrungen in Bildern bewertet werden, die von generativen adversarialen Netzwerken (GANs) mit scheinbar realistischer Textur erzeugt wurden. In dieser Arbeit vermuten wir, dass dieser Leistungsdefizit in der Architektur der IQA-Modelle begründet liegt, bei denen Patch-basierte Bewertungsmethoden unabhängige Bildpatches als Eingabe verwenden, um deren Scores separat zu berechnen, jedoch keine räumlichen Beziehungen zwischen den Bildpatches modellieren. Daher schlagen wir ein auf Aufmerksamkeit basierendes hybrides Bildqualitätsbewertungsnetzwerk (Attention-based Hybrid Image Quality Assessment Network, AHIQ) vor, um diese Herausforderung zu bewältigen und eine bessere Leistung bei der IQA-Aufgabe auf Basis von GANs zu erzielen. Zunächst verwenden wir eine Zweig-Architektur, bestehend aus einem Vision Transformer (ViT)-Zweig und einem convolutionalen neuronalen Netzwerk (CNN)-Zweig zur Merkmalsextraktion. Die hybride Architektur kombiniert die zwischen-Patch-Interaktionen, die durch den ViT erfasst werden, mit lokalen Texturdetails aus dem CNN. Um die Merkmale des flachen CNN stärker auf visuell auffällige Regionen zu fokussieren, wird eine verformbare Konvolution eingesetzt, die durch semantische Informationen aus dem ViT-Zweig unterstützt wird. Schließlich verwenden wir ein Patch-weises Score-Vorhersagemodul, um den endgültigen Score zu ermitteln. Experimente zeigen, dass unser Modell die State-of-the-Art-Methoden auf vier Standard-IQA-Datensätzen übertrifft und AHIQ sich auf dem Full Reference (FR)-Track der NTIRE 2022 Challenge für die perceptuelle Bildqualitätsbewertung auf Platz eins platzierte.