14 天前
带有掩码跨帧与帧内注意力机制的视频超分辨率Transformer
Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu

摘要
近期,视觉Transformer(Vision Transformer)在恢复低分辨率视频序列中的缺失细节方面取得了显著进展,即在视频超分辨率(Video Super-Resolution, VSR)任务中表现出色。尽管其在VSR精度方面具有显著优势,但基于Transformer的VSR模型通常伴随着高昂的计算开销和较大的内存占用,限制了其在资源受限设备上的部署。针对这一问题,本文提出了一种新颖的特征级掩码处理框架:带掩码的帧内与帧间注意力机制视频超分辨率方法(Masked Intra- and Inter-frame Attention for VSR, MIA-VSR)。MIA-VSR的核心思想是利用相邻帧之间的特征时间连续性,减少冗余计算,并更合理地复用已增强的超分辨率特征。具体而言,本文设计了一种帧内-帧间注意力模块,该模块在处理过程中综合考虑历史特征与输入特征的作用,仅利用先前已增强的特征提供补充信息,从而提升计算效率。此外,还引入了一个自适应的块级掩码预测模块,根据相邻帧特征之间的相似性动态跳过不重要的计算操作,进一步降低计算负担。通过详尽的消融实验验证了各组件的有效性,并将所提方法与当前最先进的VSR方法进行了对比。实验结果表明,MIA-VSR在保持与现有最优方法相当的PSNR精度的前提下,显著提升了内存与计算效率。相关代码已开源,地址为:https://github.com/LabShuHangGU/MIA-VSR。