HyperAIHyperAI
il y a 3 mois

CFAT : Libérer les fenêtres triangulaires pour la super-résolution d’images

{Maheshkumar H. Kolekar, Gaurav Kumar, Abhisek Ray}
CFAT : Libérer les fenêtres triangulaires pour la super-résolution d’images
Résumé

Les modèles basés sur les transformateurs ont révolutionné le domaine de la super-résolution d’images (SR) grâce à leur capacité intrinsèque à capturer des caractéristiques contextuelles complexes. La technique de fenêtre décalée rectangulaire chevauchante utilisée actuellement dans l’architecture des transformateurs est une pratique courante dans les modèles de super-résolution, visant à améliorer la qualité et la robustesse du zoom d’image. Toutefois, cette approche souffre de distorsions aux frontières et présente un nombre limité de modes de décalage uniques. Pour surmonter ces limitations, nous proposons une technique de fenêtre triangulaire non chevauchante, qui fonctionne de manière synchrone avec la fenêtre rectangulaire afin de réduire les distorsions aux frontières et permettre au modèle d’accéder à un plus grand nombre de modes de filtrage uniques. Dans cet article, nous introduisons un Transformer à Attentions Composites par Fusion (CFAT), qui intègre une attention locale basée sur les fenêtres triangulaires et rectangulaires, combinée à une attention globale basée sur les canaux, dans le cadre de la super-résolution d’images. En conséquence, le CFAT permet l’activation des mécanismes d’attention sur un plus grand nombre de pixels d’image et permet la capture de caractéristiques à longue portée et multi-échelle, améliorant ainsi les performances en SR. Les résultats expérimentaux étendus ainsi que l’étude d’ablation démontrent l’efficacité du CFAT dans le domaine de la super-résolution. Notre modèle proposé atteint une amélioration significative de 0,7 dB par rapport aux architectures de pointe actuelles en super-résolution.