Activation de plus de pixels dans le transformateur de super-résolution d’image

Les méthodes basées sur les Transformers ont fait preuve d’une performance remarquable dans les tâches de vision basse niveau, telles que la super-résolution d’images. Toutefois, nous constatons, par analyse d’attribution, que ces réseaux ne peuvent exploiter qu’une portée spatiale limitée des informations d’entrée. Cela indique que le potentiel des Transformers n’est pas pleinement exploité dans les architectures existantes. Afin de mobiliser un plus grand nombre de pixels d’entrée pour une reconstruction améliorée, nous proposons un nouveau modèle, le Transformer à Attention Hybride (HAT). Ce dernier combine une attention sur les canaux et une attention auto-attention basée sur des fenêtres, tirant ainsi parti des avantages complémentaires de ces deux approches : une utilisation efficace des statistiques globales et une forte capacité d’ajustement local. En outre, pour mieux agréger les informations entre fenêtres, nous introduisons un module d’attention croisée chevauchante, visant à renforcer l’interaction entre les caractéristiques des fenêtres voisines. Pendant l’étape d’entraînement, nous adoptons également une stratégie de pré-entraînement sur la même tâche afin d’exploiter davantage le potentiel du modèle. Des expériences abondantes démontrent l’efficacité des modules proposés, et une augmentation de l’échelle du modèle permet de montrer que les performances de cette tâche peuvent être considérablement améliorées. Notre méthode globale surpasse significativement les méthodes de pointe actuelles de plus de 1 dB. Les codes et modèles sont disponibles à l’adresse suivante : https://github.com/XPixelGroup/HAT.