Attention en bande à double domaine pour la restauration d’images
La restauration d’images vise à reconstruire une image de haute qualité latente à partir d’une observation dégradée. Récemment, l’utilisation des Transformers a considérablement amélioré les performances de pointe dans diverses tâches de restauration d’images, grâce à leur capacité puissante à modéliser les dépendances à longue portée. Toutefois, la complexité quadratique de l’attention auto-attentive limite leurs applications pratiques. Par ailleurs, exploiter pleinement le grand écart spectral entre les paires d’images propres et dégradées peut également favoriser la restauration d’images. Dans ce travail, nous proposons un mécanisme d’attention par bandes en dual-domain pour la restauration d’images, en renforçant l’apprentissage de représentations, composé d’unités d’attention spatiale et fréquentielle par bandes. Plus précisément, l’unité d’attention par bandes spatiale extrait les informations contextuelles pour chaque pixel à partir de ses voisins situés sur la même ligne ou la même colonne, sous la direction de poids appris via une branche convolutive simple. En outre, l’unité d’attention par bandes fréquentielle affine les caractéristiques dans le domaine spectral grâce à une séparation et une modulation fréquentielle, réalisée à l’aide de techniques de pooling simples. En outre, nous utilisons différentes tailles de bandes afin d’améliorer l’apprentissage multi-échelle, ce qui est avantageux pour traiter des dégradations de tailles variées. En exploitant les unités d’attention dual-domain dans différentes directions, chaque pixel peut implicitement percevoir des informations provenant d’une région étendue. Globalement, le réseau d’attention par bandes dual-domain proposé (DSANet) atteint des performances de pointe sur 12 jeux de données différents pour quatre tâches de restauration d’images : dégommage d’images, déneigeage d’images, débruitage d’images et déflouage de mise au point.