Uformer: Ein allgemeiner U-förmiger Transformer für die Bildrestauration

In dieser Arbeit stellen wir Uformer vor, eine effektive und effiziente Transformer-basierte Architektur für die Bildrestauration, bei der wir ein hierarchisches Encoder-Decoder-Netzwerk unter Verwendung des Transformer-Blocks aufbauen. In Uformer gibt es zwei zentrale Designaspekte. Erstens führen wir einen neuartigen lokal verstärkten Fenster (LeWin) Transformer-Block ein, der statt einer globalen Selbst-Aufmerksamkeit eine nicht überlappende fensterbasierte Selbst-Aufmerksamkeit durchführt. Dies reduziert die Rechenaufwand erheblich bei hochaufgelösten Merkmalskarten, während es den lokalen Kontext erfassen kann. Zweitens schlagen wir einen lernfähigen Multi-Skalen-Restauration-Modulator in Form eines Multi-Skalen-Raumbeispiels vor, um Merkmale in mehreren Schichten des Uformer-Decoders anzupassen. Unser Modulator zeigt eine überlegene Fähigkeit zur Wiederherstellung von Details bei verschiedenen Bildrestaurationsaufgaben, wobei er nur marginale zusätzliche Parameter und Rechenaufwand einführt. Dank dieser beiden Designaspekte ist Uformer in der Lage, sowohl lokale als auch globale Abhängigkeiten für die Bildrestauration zu erfassen. Um unseren Ansatz zu evaluieren, wurden umfangreiche Experimente auf mehreren Bildrestaurationsaufgaben durchgeführt, darunter Bildrauschenreduktion, Bewegungsunschärfekorrektur, Defokusunschärfekorrektur und Entfernung von Regenartefakten. Ohne zusätzliche Optimierungen erreicht unser Uformer eine überlegene oder vergleichbare Leistung im Vergleich zu den aktuellen Standesder Technik-Algorithmen. Der Code und die Modelle sind unter https://github.com/ZhendongWang6/Uformer verfügbar.