HyperAIHyperAI
il y a 9 jours

LoFormer : Transformateur de fréquence locale pour le flou d'image

Xintian Mao, Jiansheng Wang, Xingran Xie, Qingli Li, Yan Wang
LoFormer : Transformateur de fréquence locale pour le flou d'image
Résumé

En raison de la complexité computationnelle de l'attention auto-associative (SA), les techniques courantes pour le flou d'image se contentent souvent d'adopter une attention auto-associative localisée ou des méthodes globales à granularité grossière, chacune présentant des inconvénients tels qu'une modélisation globale compromise ou un manque de corrélation fine. Afin de surmonter ce problème en modélisant efficacement les dépendances à longue portée sans sacrifier les détails fins, nous proposons une nouvelle approche nommée Local Frequency Transformer (LoFormer). Dans chaque unité de LoFormer, nous intégrons une attention auto-associative canal par canal dans le domaine fréquentiel (Freq-LC), permettant de capturer simultanément les covariances croisées au sein de fenêtres locales à basse et haute fréquence. Ces opérations offrent deux avantages principaux : (1) assurer des opportunités d'apprentissage équitables tant pour les structures à granularité grossière que pour les détails fins, et (2) explorer un éventail plus large de propriétés représentationnelles par rapport aux méthodes d'attention globale à granularité grossière. Par ailleurs, nous introduisons un mécanisme de porte MLP complémentaire à Freq-LC, qui permet de filtrer les caractéristiques non pertinentes tout en renforçant les capacités d'apprentissage global. Nos expérimentations montrent que LoFormer améliore significativement les performances sur la tâche de déflouage d'image, atteignant un PSNR de 34,09 dB sur le jeu de données GoPro avec 126 G FLOPs. https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur