HyperAIHyperAI
il y a 17 jours

Transformateur à agrégation dual pour la super-résolution d'images

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher Yu
Transformateur à agrégation dual pour la super-résolution d'images
Résumé

Transformer a récemment connu une popularité croissante dans les tâches de vision basse niveau, notamment la super-résolution d’images (SR). Ces réseaux exploitent l’attention auto-associative selon différentes dimensions, spatiale ou canal, et parviennent à des performances remarquables. Cela nous a inspirés à combiner ces deux dimensions au sein d’un Transformer afin d’obtenir une capacité de représentation plus puissante. À partir de cette idée, nous proposons un nouveau modèle Transformer, appelé Dual Aggregation Transformer (DAT), dédié à la super-résolution d’images. Notre modèle DAT agrège les caractéristiques selon les dimensions spatiale et canal de manière double, à la fois inter-bloc et intra-bloc. Plus précisément, nous appliquons de manière alternée l’attention spatiale et l’attention canal dans des blocs Transformer consécutifs. Cette stratégie d’alternance permet au DAT de capturer le contexte global et d’assurer une agrégation inter-bloc des caractéristiques. En outre, nous introduisons un module d’interaction adaptative (AIM) et un réseau feed-forward à porte spatiale (SGFN) pour réaliser une agrégation intra-bloc des caractéristiques. Le module AIM complète les deux mécanismes d’attention auto-associative provenant des dimensions correspondantes, tandis que le SGFN introduit des informations spatiales non linéaires supplémentaires dans le réseau feed-forward. Des expérimentations étendues montrent que notre DAT surpasse les méthodes actuelles. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/zhengchen1999/DAT.