Effizientes visuelles Zustandsraummodell für Bildunschärfebeseitigung

Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) haben hervorragende Leistungen bei der Bildrestaurierung erzielt. Während ViTs im Allgemeinen CNNs überlegen sind, da sie langreichweitige Abhängigkeiten und eingabespezifische Merkmale effektiv erfassen können, steigt ihre rechnerische Komplexität quadratisch mit der Bildauflösung. Dieser Nachteil behindert ihre praktische Anwendung bei der Restaurierung hochauflösender Bilder. In diesem Artikel stellen wir ein einfaches, jedoch wirksames visuelles Zustandsraummodell (EVSSM) für die Bildunschärfebeseitigung vor, das die Vorteile von Zustandsraummodellen (SSMs) für visuelle Daten nutzt. Im Gegensatz zu bestehenden Ansätzen, die mehrere feste Richtungs-Scans zur Merkmalsextraktion einsetzen – was die rechnerische Kosten erheblich erhöht – entwickeln wir einen effizienten visuellen Scan-Block, der verschiedene geometrische Transformationen vor jedem SSM-basierten Modul anwendet, um nützliche nicht-lokale Informationen zu erfassen und gleichzeitig hohe Effizienz zu gewährleisten. Zusätzlich schlagen wir ein effizientes, differenzierendes Feedforward-Netzwerk auf der Basis des Frequenzbereichs (EDFFN) vor, um lokale Informationen noch effektiver zu erfassen und darzustellen. Dieses Netzwerk kann nützliche Frequenzinformationen zur Restaurierung des latenten klaren Bildes effizient schätzen. Umfangreiche experimentelle Ergebnisse zeigen, dass das vorgeschlagene EVSSM gegenüber aktuellen State-of-the-Art-Methoden auf Benchmark-Datensätzen sowie realen Bildern überzeugt. Der Quellcode ist unter https://github.com/kkkls/EVSSM verfügbar.