HyperAIHyperAI
vor 2 Monaten

SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution

Dafeng Zhang; Feiyu Huang; Shizhuo Liu; Xiaobing Wang; Zhezhu Jin
SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution
Abstract

Transformer-basierte Methoden haben dank ihrer Fähigkeit, langreichweitige Abhängigkeiten im Vergleich zu CNN-basierten Methoden zu modellieren, beeindruckende Leistungen bei der Bildrestauration erzielt. Dennoch beschränken Fortschritte wie SwinIR durch die Verwendung von fensterbasierten und lokalen Aufmerksamkeitsstrategien die Nutzung großer Rezeptivfelder zur Erfassung globaler Informationen und zum Aufbau langer Abhängigkeiten in den frühen Schichten, um Leistung und rechnerische Overhead auszugleichen. Um die Effizienz der Erfassung globaler Informationen weiter zu verbessern, schlagen wir in dieser Arbeit SwinFIR vor, um SwinIR durch den Austausch von Fast Fourier Convolution (FFC)-Komponenten zu erweitern, die über ein bildweites Rezeptivfeld verfügen. Wir untersuchen zudem andere fortgeschrittene Techniken wie Datenverstärkung (data augmentation), Vorabtraining (pre-training) und Merkmalsensemble (feature ensemble), um die Wirkung der Bildrekonstruktion zu verbessern. Unser Merkmalsensemble-Verfahren ermöglicht es, die Leistung des Modells erheblich zu steigern, ohne die Trainings- und Testzeit zu erhöhen. Wir haben unseren Algorithmus auf mehreren gängigen großen Benchmarks angewendet und dabei verglichen mit den bestehenden Methoden Spitzenleistungen erzielt. Zum Beispiel erreicht unser SwinFIR auf dem Manga109-Datensatz einen PSNR von 32,83 dB, was 0,8 dB höher ist als der bislang beste SwinIR-Ansatz.