Restormer: Effizienter Transformer für die Restauration hochaufgelöster Bilder

Da Faltungsneuronale Netze (CNNs) gut darin sind, verallgemeinerbare Bildpriors aus umfangreichen Daten zu lernen, wurden diese Modelle intensiv auf Bildrestauration und verwandte Aufgaben angewendet. Kürzlich haben sich eine andere Klasse neuronaler Architekturen, die sogenannten Transformer, bei natürlicher Sprache und hochstufigen Visionssystemaufgaben als sehr leistungsfähig erwiesen. Während das Transformer-Modell die Nachteile von CNNs (d.h., begrenztes Rezeptivfeld und Unangepasstheit an den Eingehalt) mildert, wächst dessen rechnerische Komplexität quadratisch mit der räumlichen Auflösung, was es für die Anwendung auf die meisten Bildrestaurationsaufgaben mit hochauflösenden Bildern nicht praktikabel macht. In dieser Arbeit schlagen wir ein effizientes Transformer-Modell vor, indem wir mehrere zentrale Designentscheidungen in den Bausteinen (mehrköpfige Aufmerksamkeit und Feed-Forward-Netzwerk) treffen, sodass es langreichweitige Pixelinteraktionen erfassen kann und dennoch für große Bilder anwendbar bleibt. Unser Modell, das als Restaurationstransformer (Restormer) bezeichnet wird, erzielt Spitzenwerte bei mehreren Bildrestaurationsaufgaben, einschließlich Regenentfernung aus Bildern, Bewegungsunschärfeausgleich in Einzelbildern, Defokussunschärfeausgleich (Einzelbilder und Dual-Pixel-Daten) sowie Bildrauschenreduktion (Gaußsche Graustufen-/Farbrauschenreduktion und Rauschenreduktion in realen Bildern). Der Quellcode und die vortrainierten Modelle sind unter https://github.com/swz30/Restormer verfügbar.