Réseau à multi-attention adaptative à étape unique pour la restauration d’image
Récemment, les réseaux basés sur l’attention ont connu un succès notable dans les tâches de restauration d’image. Toutefois, les méthodes existantes sont soit excessivement coûteuses en termes de calcul, soit limitées par des champs réceptifs restreints, ce qui impose des contraintes sur les modèles. Elles présentent également une résilience insuffisante en termes d’aspects spatiaux et contextuels, et manquent de correspondance pixel à pixel, ce qui peut dégrader la qualité des représentations de caractéristiques. Dans cet article, nous proposons une nouvelle architecture efficace sur le plan computationnel, nommée Single Stage Adaptive Multi-Attention Network (SSAMAN), dédiée aux tâches de restauration d’image, notamment au débruitage et au déflouage d’image. SSAMAN permet de résoudre efficacement les problèmes de coût computationnel tout en élargissant les champs réceptifs, renforçant ainsi la robustesse des représentations de caractéristiques spatiales et contextuelles. Son module innovant, appelé Adaptive Multi-Attention Module (AMAM), intègre de manière unique les dimensions canal et pixel via deux branches : une branche Adaptive Pixel Attention Branch (APAB) et une branche Adaptive Channel Attention Branch (ACAB), améliorant significativement la sensibilité aux contours, aux formes et aux textures. Nous menons des expérimentations étendues ainsi que des études d’ablation pour valider les performances de SSAMAN. Notre modèle obtient des résultats de pointe sur divers benchmarks : par exemple, dans les tâches de débruitage d’image, SSAMAN atteint un PSNR de 40,08 dB sur le jeu de données SIDD, surpassant Restormer de 0,06 dB PSNR, tout en réduisant de 41,02 % le coût computationnel. Sur le jeu de données DND, il atteint un PSNR de 40,05 dB. Pour le déflouage d’image, SSAMAN obtient un PSNR de 33,53 dB sur le jeu de données GoPro. Le code source et les modèles sont disponibles sur GitHub.