CascadedGaze : efficacité dans l'extraction du contexte global pour la restauration d'images

Les tâches de restauration d’image s’appuient traditionnellement sur les réseaux de neurones convolutifs. Toutefois, en raison de la nature locale de l’opérateur convolutif, ces modèles peinent à capturer des informations globales. Le potentiel des mécanismes d’attention présents dans les Transformers réside justement dans leur capacité à contourner ce problème, mais cela se fait au prix d’une surcharge computationnelle importante. De nombreuses études récentes en restauration d’image se sont concentrées sur la résolution du défi consistant à équilibrer performance et coût computationnel à l’aide de variantes de Transformers. Dans ce papier, nous présentons le CascadedGaze Network (CGNet), une architecture encodage-décodage qui utilise un Extracteur de Contexte Global (GCE), une nouvelle approche efficace pour capturer des informations globales dans le cadre de la restauration d’image. Le module GCE exploite des noyaux de petite taille au sein des couches convolutives afin d’apprendre des dépendances globales, sans recourir à l’attention auto-attentionnelle. Des résultats expérimentaux étendus montrent que notre approche, à faible coût computationnel, atteint des performances compétitives par rapport à diverses méthodes de pointe sur des tâches de débruitage d’images synthétiques et de déflouage d’image unique, tout en poussant davantage les limites de performance sur la tâche de débruitage d’images réelles.