
摘要
基于Transformer的方法在低层视觉任务(如图像超分辨率)中展现出卓越的性能。然而,通过归因分析我们发现,现有网络在利用输入信息时,其空间感受野仍受到显著限制,这表明Transformer在现有架构中的潜力尚未得到充分挖掘。为激活更多输入像素以实现更优的重建效果,本文提出一种新型混合注意力Transformer(Hybrid Attention Transformer, HAT)。该方法融合了通道注意力与基于窗口的自注意力机制,充分发挥二者优势:前者能够有效利用全局统计信息,后者则具备强大的局部拟合能力。此外,为更有效地聚合跨窗口信息,我们引入了重叠交叉注意力模块,以增强相邻窗口特征之间的交互。在训练阶段,我们进一步采用同任务预训练策略,以进一步挖掘模型的潜力。大量实验验证了所提模块的有效性,同时通过模型规模扩展实验表明,该方法在任务性能上可实现显著提升。整体方法在各项指标上显著优于现有最先进方法,性能提升超过1 dB。相关代码与模型已开源,地址为:https://github.com/XPixelGroup/HAT。