You Only Train Once: Ein einheitlicher Rahmen für volle und keine Referenzbildqualitätsbewertung

Obwohl kürzliche Bemühungen im Bereich der Bildqualitätsbewertung (BQB) vielversprechende Ergebnisse erzielt haben, besteht noch ein erheblicher Unterschied im Vergleich zum menschlichen visuellen System (HVS). Ein wesentlicher Unterschied liegt darin, dass Menschen nahtlos zwischen Aufgaben mit vollständigem Referenzbild (VR) und ohne Referenzbild (WR) wechseln können, während bestehende Modelle entweder auf VR- oder WR-Aufgaben beschränkt sind. Dieser Unterschied impliziert die Notwendigkeit, zwei separate Systeme zu entwickeln, was die Vielseitigkeit des Modells erheblich einschränkt. Daher liegt unser Fokus darauf, VR- und WR-BQB in einem einzigen Framework zu vereinen. Insbesondere verwenden wir zunächst einen Encoder, um mehrstufige Merkmale aus den Eingabebildern zu extrahieren. Anschließend wird ein hierarchischer Aufmerksamkeitsmodul (Hierarchical Attention, HA) vorgeschlagen, der als universeller Adapter für sowohl VR- als auch WR-Eingaben dient, um die räumliche Verzerrung in jeder Encoder-Stufe zu modellieren. Darüber hinaus wird berücksichtigt, dass verschiedene Verzerrungen die Encoder-Stufen unterschiedlich kontaminieren und das semantische Bildinhalt unterschiedlich beschädigen. Deshalb wird ein semantik-bewusster Verzerrungsmodul (Semantic Distortion Aware, SDA) vorgeschlagen, um die Merkmalskorrelationen zwischen den oberflächlichen und tiefen Schichten des Encoders zu untersuchen. Durch die Anwendung von HA und SDA kann das vorgeschlagene Netzwerk effektiv sowohl VR- als auch WR-BQB durchführen. Wenn unser vorgeschlagenes Modell unabhängig von den WR- oder VR-BQB-Aufgaben trainiert wird, übertrifft es bestehende Modelle und erreicht Spitzenleistungen. Zudem verbessert es bei gemeinsamem Training auf WR- und VR-BQB-Aufgaben weiterhin die Leistung der WR-BQB und erreicht gleichwertige Leistungen im Vergleich zur besten VR-BQB-Methode. Man muss nur einmal trainieren, um beide BQB-Aufgaben durchzuführen. Der Quellcode wird veröffentlicht unter: https://github.com/BarCodeReader/YOTO.