BSRT: Verbesserung der Burst-Super-Auflösung mit Swin Transformer und Flow-gesteuerter deformierbarer Ausrichtung

Diese Arbeit befasst sich mit der Aufgabe der Burst-Super-Auflösung (BurstSR) unter Verwendung einer neuen Architektur, die es erfordert, ein hochwertiges Bild aus einer Sequenz von verrauschten, fehlalignierten und nieder-auflösenden RAW-Bursts zu rekonstruieren. Um die Herausforderungen bei BurstSR zu bewältigen, schlagen wir einen Burst-Super-Auflösungs-Transformer (BSRT) vor, der die Fähigkeit zur Extraktion von inter-frame Informationen und zur Rekonstruktion erheblich verbessern kann. Um dieses Ziel zu erreichen, schlagen wir ein Pyramiden-Flussgeführtes Deformables Konvolutionales Netzwerk (Pyramide FG-DCN) vor und integrieren Swin-Transformer-Blöcke und -Gruppen als unseren Haupt-Rückgrat. Spezieller gesagt kombinieren wir optische Flüsse und deformierbare Konvolutionen, wodurch unser BSRT Fehlalignierungen effizienter behandeln und potenzielle Texturinformationen in mehreren Frames besser aggregieren kann. Darüber hinaus kann unsere transformerbasierte Struktur langreichweitige Abhängigkeiten erfassen, um die Leistung weiter zu verbessern. Die Auswertung sowohl auf synthetischen als auch auf realweltlichen Testdatensätzen zeigt, dass unser Ansatz einen neuen Stand der Technik in der Burst-Super-Auflösungsaufgabe erreicht. Zudem gewinnt unser BSRT den ersten Platz im NTIRE2022 Burst Super-Resolution Challenge.