17 天前

用于图像超分辨率的递归泛化Transformer

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang
用于图像超分辨率的递归泛化Transformer
摘要

Transformer架构在图像超分辨率(Super-Resolution, SR)任务中展现出卓越的性能。然而,由于Transformer中自注意力(Self-Attention, SA)机制具有二次方时间复杂度,现有方法通常将自注意力限制在局部区域,以降低计算开销。这种局部设计虽然提升了效率,却限制了全局上下文信息的捕捉能力,而全局上下文对于高精度图像重建至关重要。为此,本文提出了一种面向图像超分辨率的递归泛化Transformer(Recursive Generalization Transformer, RGT),能够有效捕获全局空间信息,特别适用于高分辨率图像的重建。具体而言,我们设计了递归泛化自注意力机制(Recursive-Generalization Self-Attention, RG-SA):该机制通过递归方式将输入特征聚合为更具代表性的特征图,并进一步利用交叉注意力(cross-attention)提取全局上下文信息。同时,我们对注意力矩阵(查询、键、值)的通道维度进行进一步扩展,以缓解通道域中的冗余问题。此外,我们将RG-SA与局部自注意力相结合,以增强对全局上下文信息的利用能力,并提出了混合自适应融合(Hybrid Adaptive Integration, HAI)模块集成策略。HAI能够实现不同层级特征(局部或全局)之间的直接且高效的融合。大量实验结果表明,所提出的RGT在定量与定性评价上均优于当前最先进的方法。相关代码与预训练模型已开源,地址为:https://github.com/zhengchen1999/RGT。