HyperAIHyperAI
il y a 2 mois

SwinFIR : Revisiter SwinIR avec la convolution de Fourier rapide et une formation améliorée pour la super-résolution d'images

Dafeng Zhang; Feiyu Huang; Shizhuo Liu; Xiaobing Wang; Zhezhu Jin
SwinFIR : Revisiter SwinIR avec la convolution de Fourier rapide et une formation améliorée pour la super-résolution d'images
Résumé

Les méthodes basées sur les Transformers ont obtenu des performances impressionnantes en restauration d'images grâce à leur capacité à modéliser les dépendances à longue portée, contrairement aux méthodes basées sur les CNN. Cependant, des avancées comme SwinIR adoptent une stratégie d'attention basée sur des fenêtres et locale pour équilibrer les performances et la charge de calcul, ce qui limite l'utilisation de grands champs récepteurs pour capturer des informations globales et établir des dépendances à longue portée dans les premières couches. Pour améliorer encore davantage l'efficacité de la capture d'informations globales, nous proposons dans cette étude SwinFIR, une extension de SwinIR, en remplaçant les composants de convolution de Fourier rapide (FFC), qui disposent d'un champ récepteur couvrant toute l'image. Nous reprenons également d'autres techniques avancées, telles que l'augmentation de données, le pré-entraînement et l'agrégation de caractéristiques, afin d'améliorer l'efficacité de la reconstruction d'images. Notre méthode d'agrégation de caractéristiques permet d'améliorer considérablement les performances du modèle sans augmenter le temps d'entraînement ni celui de test. Nous avons appliqué notre algorithme à plusieurs benchmarks populaires à grande échelle et avons obtenu des performances parmi les meilleures comparativement aux méthodes existantes. Par exemple, notre SwinFIR atteint un PSNR de 32,83 dB sur le jeu de données Manga109, soit 0,8 dB de plus que la méthode SwinIR parmi les meilleures actuellement.