HMANet : Réseau hybride d’agrégation multi-axes pour la super-résolution d’images

Les méthodes basées sur les Transformers ont démontré des performances excellentes sur les tâches de super-résolution visuelle, dépassant les réseaux de neurones convolutifs classiques. Toutefois, les travaux existants restreignent généralement le calcul de l’attention auto-attention à des fenêtres non chevauchantes afin de réduire les coûts computationnels. Cette contrainte implique que les réseaux basés sur les Transformers ne peuvent exploiter que des informations d’entrée provenant d’une plage spatiale limitée. Afin de mieux exploiter le potentiel des caractéristiques, cette étude propose un nouveau réseau hybride à agrégation multi-axes (HMA). HMA est construit en empilant des blocs résiduels hybrides Transformer (RHTB) et des blocs d’attention en grille (GAB). D’un côté, les RHTB combinent l’attention sur les canaux et l’attention auto-attention pour renforcer la fusion de caractéristiques non locales et produire des résultats visuels plus attrayants. De l’autre côté, les GAB sont utilisés pour faciliter l’interaction d’information entre domaines, permettant ainsi de modéliser conjointement des caractéristiques similaires et d’élargir le champ perceptif. Pendant la phase d’entraînement pour la tâche de super-résolution, une nouvelle méthode de pré-entraînement est conçue afin d’améliorer davantage les capacités de représentation du modèle, et l’efficacité du modèle proposé est validée à travers de nombreuses expérimentations. Les résultats expérimentaux montrent que HMA surpasser les méthodes de pointe sur les jeux de données de référence. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/korouuuuu/HMA.