ARNIQA: Lernen der Verzerrungsmannigfaltigkeit für die Bildqualitätseinschätzung

Die No-Reference-Bildqualitätsbewertung (NR-IQA) strebt danach, Methoden zu entwickeln, um die Bildqualität in Übereinstimmung mit der menschlichen Wahrnehmung zu messen, ohne dass ein hochwertiges Referenzbild erforderlich ist. In dieser Arbeit schlagen wir einen selbstüberwachten Ansatz vor, der als ARNIQA (leArning distoRtion maNifold for Image Quality Assessment) bezeichnet wird. Dieser Ansatz dient zur Modellierung des Bildverzerrungsmanifolds, um Qualitätsrepräsentationen auf intrinsische Weise zu erhalten. Zunächst führen wir ein Bildverschlechterungsmodell ein, das zufällig geordnete Sequenzen von nacheinander angewandten Verzerrungen zusammensetzt. Auf diese Weise können wir Bilder mit einer Vielzahl von Verschlechterungsmustern synthetisch verschlechtern. Als Nächstes schlagen wir vor, unser Modell durch die Maximierung der Ähnlichkeit zwischen den Repräsentationen verschiedener Bildausschnitte zu trainieren, die gleichmäßig verzerrt wurden, unabhängig von ihrem unterschiedlichen Inhalt. Somit entsprechen Bilder, die auf dieselbe Weise verschlechtert wurden, benachbarten Positionen innerhalb des Verzerrungsmanifolds. Schließlich ordnen wir die Bildrepräsentationen den Qualitätsbewertungen mit einem einfachen linearen Regressor zu, wobei die Gewichte des Encoders nicht feinjustiert werden. Die Experimente zeigen, dass unser Ansatz auf mehreren Datensätzen eine Spitzenleistung erzielt. Darüber hinaus demonstriert ARNIQA verbesserte Dateneffizienz, Generalisierungsfähigkeiten und Robustheit im Vergleich zu konkurrierenden Methoden. Der Code und das Modell sind öffentlich verfügbar unter https://github.com/miccunifi/ARNIQA.