Réseau de fusion Transformer résiduel pour le débruitage d'images au sel et poivre

Le réseau de neurones convolutif (CNN) est largement utilisé sur des jeux de données non structurés, dont le débruitage d’images. Le débruitage d’images est un processus de reconstruction d’images bruitées visant à réduire le bruit parasite introduit par le processus d’acquisition ou de transmission, selon diverses stratégies. Toutefois, une limitation de certaines méthodes de débruitage réside dans le fait qu’elles nécessitent des connaissances a priori sur les caractéristiques du bruit. Pour surmonter ce problème, une architecture combinée basée sur le Convolutional Vision Transformer (CvT) et les réseaux résiduels (ResNet), nommée Residual Transformer Fusion Network (RTF-Net), a été proposée. Cette architecture se divise globalement en deux composantes : le réseau de suppression du bruit (NSN) et le réseau d’amélioration des structures (SEN). Le bloc résiduel est utilisé dans le NSN afin d’apprendre la carte de bruit présente dans l’image, tandis que le CvT est intégré au SEN pour capturer et restaurer les détails fins manquants dans l’image traitée par le NSN. Le modèle a été entraîné à l’aide du jeu de données DIV2K Training Set et validé sur le DIV2K Validation Set. Après l’entraînement, il a été testé sur les images Lena, Bridge, Pepper et BSD300, avec des niveaux de bruit de 30 %, 50 % et 70 %. Les performances ont été évaluées en termes de PSNR et comparées aux méthodes DBA, NASNLM, PARIGI, NLSF, NLSF-MLP et NLSF-CNN. Les résultats montrent que la méthode proposée obtient de meilleurs résultats dans l’ensemble des cas, à l’exception de l’image Pepper avec un niveau de bruit de 30 %, où la méthode NLSF-CNN se distingue avec une PSNR de 32,99 dB, tandis que la méthode proposée atteint une PSNR de 31,70 dB.