
摘要
近年来,Transformer架构在单图像超分辨率任务中引起了广泛关注,并展现出显著的性能提升。然而,现有模型过度依赖网络提取图像高层语义细节的能力,却忽视了多尺度图像细节以及网络内部中间特征的有效利用。此外,研究发现,与低频区域相比,图像中的高频区域在超分辨率任务中具有更高的复杂性。为此,本文提出一种基于Transformer的超分辨率架构——ML-CrAIST,该方法通过融合多尺度的低频与高频信息来弥补这一不足。与以往大多数仅在空间维度或通道维度上操作的模型不同,本文同时引入空间自注意力与通道自注意力机制,能够协同建模像素在空间维度和通道维度上的交互关系,充分挖掘空间与通道轴之间的内在关联性。此外,我们设计了一种用于超分辨率任务的交叉注意力模块,用于探索低频与高频信息之间的相关性。定量与定性实验结果表明,所提出的ML-CrAIST在多个基准数据集上显著优于当前最先进的超分辨率方法(例如,在Manga109 ×4任务上提升达0.15 dB)。代码已开源,访问地址:https://github.com/Alik033/ML-CrAIST。