2 个月前
VRT:一种视频修复变压器
Jingyun Liang; Jiezhang Cao; Yuchen Fan; Kai Zhang; Rakesh Ranjan; Yawei Li; Radu Timofte; Luc Van Gool

摘要
视频修复(例如,视频超分辨率)旨在从低质量帧中恢复高质量帧。与单图像修复不同,视频修复通常需要利用多个相邻但通常未对齐的视频帧中的时间信息。现有的深度学习方法通常通过滑动窗口策略或递归架构来解决这一问题,但前者受限于逐帧修复,后者则缺乏长距离建模能力。在本文中,我们提出了一种具有并行帧预测和长距离时间依赖建模能力的视频修复变压器(Video Restoration Transformer, VRT)。具体而言,VRT由多个尺度组成,每个尺度包含两种模块:时间互自注意力(Temporal Mutual Self Attention, TMSA)和平行变形(Parallel Warping)。TMSA将视频划分为小片段,在这些片段上应用互注意力进行联合运动估计、特征对齐和特征融合,而自注意力则用于特征提取。为了实现跨片段的交互,每两层之间会移动视频序列。此外,平行变形通过并行特征变形进一步融合邻近帧的信息。实验结果表明,在包括视频超分辨率、视频去模糊、视频降噪、视频帧插值和时空视频超分辨率在内的五项任务中,VRT在十四种基准数据集上的表现显著优于现有最先进方法(最高可达2.16 dB)。