HyperAIHyperAI
vor 11 Tagen

TOPIQ: Ein top-down Ansatz von Semantik zu Verzerrungen für die Bildqualitätsbewertung

Chaofeng Chen, Jiadi Mo, Jingwen Hou, Haoning Wu, Liang Liao, Wenxiu Sun, Qiong Yan, Weisi Lin
TOPIQ: Ein top-down Ansatz von Semantik zu Verzerrungen für die Bildqualitätsbewertung
Abstract

Bildqualitätsbewertung (Image Quality Assessment, IQA) ist eine zentrale Aufgabe im Bereich des Computersehens, die mit tiefen neuronalen Netzen erhebliche Fortschritte verzeichnet hat. Angeregt durch die Eigenschaften des menschlichen visuellen Systems nutzen bestehende Methoden typischerweise eine Kombination aus globalen und lokalen Darstellungen (d. h. mehrskalige Merkmale), um eine herausragende Leistung zu erzielen. Allerdings verwenden die meisten dieser Ansätze eine einfache lineare Fusion mehrskaliger Merkmale und vernachlässigen deren möglicherweise komplexe Beziehungen und Interaktionen. Im Gegensatz dazu bilden Menschen zunächst eine globale Wahrnehmung, um wichtige Bereiche zu identifizieren, und konzentrieren sich dann auf die lokalen Details dieser Regionen. Aus diesem Grund schlagen wir einen top-down-Ansatz vor, der durch hochwertige Semantik die IQA-Netzwerk-Attention auf semantisch relevante lokale Verzerrungsbereiche lenkt, und nennen ihn \emph{TOPIQ}. Unser Ansatz zur IQA basiert auf der Entwicklung eines heuristischen grob-zu-fein-Netzwerks (CFANet), das mehrskalige Merkmale nutzt und semantische Informationen mehrerer Ebenen schrittweise in top-down-Richtung auf niedrigstufige Darstellungen überträgt. Ein zentraler Bestandteil unseres Ansatzes ist die vorgeschlagene mehrskalige Aufmerksamkeitsmechanik, die Aufmerksamkeitskarten für niedrigstufige Merkmale auf Basis höherstufiger Merkmale berechnet. Dieser Mechanismus betont aktive semantische Regionen für niedrigstufige Verzerrungen und verbessert dadurch die Leistung. CFANet eignet sich sowohl für Full-Reference (FR)- als auch für No-Reference (NR)-IQA. Wir verwenden ResNet50 als Grundarchitektur und zeigen, dass CFANet im Vergleich zu aktuellen state-of-the-art-Methoden auf Basis von Vision-Transformern auf den meisten öffentlichen FR- und NR-Benchmarks eine bessere oder wettbewerbsfähige Leistung erzielt, dabei aber deutlich effizienter ist (nur ${\sim}13\%$ der FLOPS des derzeit besten FR-Verfahrens). Der Quellcode ist unter \url{https://github.com/chaofengc/IQA-PyTorch} verfügbar.

TOPIQ: Ein top-down Ansatz von Semantik zu Verzerrungen für die Bildqualitätsbewertung | Neueste Forschungsarbeiten | HyperAI