MUSIQ: Multi-scale Image Quality Transformer

Die Bildqualitätsbewertung (Image Quality Assessment, IQA) ist ein zentrales Forschungsthema zur Verbesserung und Vertiefung des visuellen Erlebnisses. Aktuelle state-of-the-art IQA-Methoden basieren auf konvolutionellen neuronalen Netzwerken (Convolutional Neural Networks, CNNs). Die Leistungsfähigkeit von CNN-basierten Modellen wird häufig durch die feste Formbeschränkung bei der Batch-Training-Phase beeinträchtigt. Um diesem Problem zu begegnen, werden Eingabebilder üblicherweise auf eine feste Größe skaliert und beschnitten, was zu einer Degradierung der Bildqualität führt. Um dies zu überwinden, entwickeln wir einen mehrskaligen Bildqualitäts-Transformer (MUSIQ), der native Auflösungen mit unterschiedlichen Größen und Seitenverhältnissen verarbeiten kann. Durch eine mehrskalige Bildrepräsentation kann unsere vorgeschlagene Methode die Bildqualität auf verschiedenen Granularitätsstufen erfassen. Zudem wird ein neuartiges, hashbasiertes 2D-Raum-Einbettungsschema sowie eine Skaleneinbettung vorgestellt, um die Positionseinhaltung in der mehrskaligen Darstellung zu unterstützen. Experimentelle Ergebnisse bestätigen, dass unsere Methode auf mehreren großen IQA-Datensätzen wie PaQ-2-PiQ, SPAQ und KonIQ-10k state-of-the-art Leistung erzielt.