DRCT : Préserver la super-résolution d’images de la limitation d’information

Ces dernières années, les approches fondées sur les Vision Transformers pour les tâches de vision basse niveau ont connu un succès considérable. Contrairement aux modèles basés sur les réseaux de neurones convolutifs (CNN), les Transformers sont mieux adaptés à la capture des dépendances à longue portée, permettant ainsi la reconstruction d’images en exploitant des informations non locales. Dans le domaine de la super-résolution, les modèles basés sur Swin-Transformer sont devenus dominants grâce à leur capacité à modéliser l’information spatiale globale, ainsi qu’à leur mécanisme d’attention à fenêtres décalées, qui facilite l’échange d’information entre différentes fenêtres. De nombreux chercheurs ont amélioré les performances des modèles en élargissant les champs réceptifs ou en concevant des architectures complexes, obtenant ainsi des résultats remarquables. Toutefois, nous avons observé un phénomène généralisé : l’intensité des cartes de caractéristiques est brusquement atténuée vers de faibles valeurs à la fin du réseau. Cela indique un goulot d’étranglement d’information et une perte progressive d’information spatiale, limitant implicitement le potentiel du modèle. Pour remédier à ce problème, nous proposons le Dense-residual-connected Transformer (DRCT), conçu pour atténuer la perte d’information spatiale et stabiliser le flux d’information grâce à des connexions résiduelles denses entre les couches, libérant ainsi tout le potentiel du modèle et évitant ainsi le goulot d’étranglement d’information. Les résultats expérimentaux montrent que notre approche dépasse les méthodes de pointe sur des jeux de données de référence et se distingue particulièrement lors du défi NTIRE-2024 de super-résolution d’images (facteur x4). Le code source est disponible à l’adresse suivante : https://github.com/ming053l/DRCT