HyperAIHyperAI
il y a 17 jours

ML-CrAIST : Transformateur à super-résolution d’image basé sur une attention croisée à information multi-échelle à fréquences basse et élevée

Alik Pramanick, Utsav Bheda, Arijit Sur
ML-CrAIST : Transformateur à super-résolution d’image basé sur une attention croisée à information multi-échelle à fréquences basse et élevée
Résumé

Récemment, les transformateurs ont suscité un intérêt croissant dans le domaine des tâches de super-résolution d’image unique, démontrant des gains substantiels en performance. Les modèles actuels dépendent fortement de la capacité du réseau à extraire des détails sémantiques de haut niveau à partir des images, tout en négligeant une utilisation efficace des informations multi-échelles et des informations intermédiaires au sein du réseau. En outre, il a été observé que les régions à haute fréquence des images présentent une complexité bien plus importante pour la super-résolution que les régions à basse fréquence. Ce travail propose une architecture de super-résolution basée sur les transformateurs, nommée ML-CrAIST, qui comble cette lacune en exploitant l’information à basse et haute fréquence à plusieurs échelles. Contrairement à la plupart des travaux antérieurs (qu’ils soient spatiaux ou canaliques), nous appliquons simultanément l’attention spatiale et l’attention canalique, permettant ainsi de modéliser les interactions entre pixels selon les deux dimensions spatiale et canalique, tout en tirant parti des corrélations intrinsèques entre les axes spatiaux et canaliques. Par ailleurs, nous proposons un bloc d’attention croisée spécifiquement conçu pour la super-résolution, qui explore les corrélations entre les informations à basse et haute fréquence. Des évaluations quantitatives et qualitatives montrent que notre méthode ML-CrAIST dépasse les approches de pointe en super-résolution (par exemple, une amélioration de 0,15 dB sur Manga109 ×4). Le code est disponible à l’adresse suivante : https://github.com/Alik033/ML-CrAIST.