
摘要
近年来,基于视觉Transformer(Vision Transformer)的低层视觉任务方法取得了广泛应用与显著成功。与基于卷积神经网络(CNN)的模型不同,Transformer在捕捉长距离依赖关系方面更具优势,能够利用非局部信息实现图像的高质量重建。在图像超分辨率领域,基于Swin Transformer的模型已成为主流,其凭借全局空间信息建模能力以及滑动窗口注意力机制,有效促进了不同窗口间的信息交互。许多研究者通过扩展感受野或设计精细的网络结构,显著提升了模型性能,取得了令人瞩目的成果。然而,我们观察到一个普遍现象:在网络深层,特征图的激活强度往往在接近输出端时突然被抑制至极小值。这一现象表明存在信息瓶颈,导致空间信息逐渐丢失,从而在隐性层面限制了模型的潜力。为解决该问题,本文提出一种密集残差连接的Transformer架构(Dense-Residual-Connected Transformer, DRCT),通过层间密集残差连接机制,有效缓解空间信息的损失,稳定信息流动,充分释放模型潜能,避免陷入信息瓶颈。实验结果表明,所提方法在多个基准数据集上均优于当前最先进的超分辨率技术,并在NTIRE-2024图像超分辨率(x4)挑战赛中表现优异。相关源代码已公开,可访问:https://github.com/ming053l/DRCT