
卷积神经网络(Convolutional Neural Network, CNN)在非结构化数据集中的应用十分广泛,其中图像去噪是其重要应用之一。图像去噪是一种从含噪图像中重建清晰图像的过程,旨在通过多种策略有效抑制图像中引入的噪声。然而,现有图像去噪方法普遍存在一个问题,即部分方法需要预先掌握关于噪声特性的先验知识。为解决该问题,本文提出一种融合卷积视觉Transformer(Convolutional Vision Transformer, CvT)与残差网络(Residual Networks, ResNet)的联合架构,称为残差Transformer融合网络(Residual Transformer Fusion Network, RTF-Net)。该架构的整体流程可分为两个主要部分:噪声抑制网络(Noise Suppression Network, NSN)与结构增强网络(Structure Enhancement Network, SEN)。在NSN中采用残差块(Residual Block)结构,用于学习图像中的噪声分布特征;而在SEN中则引入CvT模块,以捕捉并恢复经NSN处理后图像中缺失的细节信息,从而提升图像的结构保真度。模型在DIV2K训练集上进行训练,并在DIV2K验证集上进行验证。训练完成后,采用Lena、Bridge、Pepper和BSD300四组标准图像,在噪声水平分别为30%、50%和70%的条件下进行测试,并将所得结果与DBA、NASNLM、PARIGI、NLSF、NLSF-MLP以及NLSF-CNN等先进方法进行对比,以峰值信噪比(PSNR)作为主要评价指标。实验结果表明,所提方法在绝大多数测试场景下均表现出更优的性能。仅在Pepper图像、噪声水平为30%的情况下,NLSF-CNN方法略胜一筹,其PSNR值达到32.99 dB,而本文所提方法的PSNR为31.70 dB。总体而言,RTF-Net在图像去噪任务中展现出良好的鲁棒性与优越的重建能力,尤其在高噪声环境下表现突出。