MaIR: Eine Mamba für die Bildrestauration, die Lokalität und Kontinuität erhält

Neuere Fortschritte bei Mamba haben vielversprechende Ergebnisse im Bereich der Bildrestauration gezeigt. Diese Methoden verwandeln 2D-Bilder in mehrere eindeutige 1D-Sequenzen entlang von Zeilen und Spalten, verarbeiten jede Sequenz unabhängig mithilfe einer selektiven Scanoperation und kombinieren sie anschließend, um die Ausgaben zu bilden. Allerdings vernachlässigt dieses Paradigma zwei entscheidende Aspekte: i) die lokalen Beziehungen und die räumliche Kontinuität, die in natürlichen Bildern inhärent sind, und ii) die Unterschiede zwischen Sequenzen, die auf völlig verschiedene Weise entfaltet werden. Um diese Nachteile zu überwinden, untersuchen wir zwei Probleme in Mamba-basierten Restaurationsmethoden: i) wie man eine Scannstrategie entwickelt, die sowohl Lokalität als auch Kontinuität bewahrt und gleichzeitig die Restauration erleichtert, und ii) wie man die verschiedenen Sequenzen aggregiert, die auf völlig unterschiedliche Weise entfaltet wurden. Um diese Probleme anzugehen, schlagen wir ein neues Mamba-basiertes Bildrestaurationsmodell (MaIR) vor, das aus einer geschachtelten S-förmigen Scannstrategie (NSS) und einem Sequenz-Shuffle-Aufmerksamkeitsblock (SSA) besteht. Insbesondere bewahrt NSS durch den streifenbasierten Scannbereich und den S-förmigen Scannpfad jeweils Lokalität und Kontinuität der Eingangsbilder. SSA aggregiert Sequenzen durch Berechnung von Aufmerksamkeitsgewichten innerhalb der entsprechenden Kanäle verschiedener Sequenzen. Dank NSS und SSA übertreffen MaIR 40 Baselines über 14 anspruchsvolle Datensätze hinweg und erzielt Spitzenleistungen bei den Aufgaben der Bildsuperresolution, -entrauschen, -entverwischen und -entnebeln. Der Quellcode ist unter https://github.com/XLearning-SCU/2025-CVPR-MaIR verfügbar.