
摘要
视频修复任务,包括超分辨率、去模糊等,正逐渐引起计算机视觉领域的广泛关注。在NTIRE19挑战赛中发布了一个名为REDS的具有挑战性的基准数据集。这一新的基准从两个方面对现有方法提出了挑战:(1)如何在存在大运动的情况下对齐多帧图像;(2)如何有效地融合具有不同运动和模糊的多帧图像。在这项工作中,我们提出了一种基于增强变形网络的新型视频修复框架,称为EDVR,以应对这些挑战。首先,为了处理大运动问题,我们设计了一个金字塔、级联和变形(Pyramid, Cascading and Deformable, PCD)对齐模块,在该模块中,通过从粗到细的方式使用变形卷积在特征层面对齐帧图像。其次,我们提出了一种时空注意力(Temporal and Spatial Attention, TSA)融合模块,在该模块中,时间上和空间上的注意力机制被同时应用,以便突出后续修复过程中重要的特征。得益于这些模块,我们的EDVR在NTIRE19视频修复和增强挑战赛的所有四个赛道中均获得冠军,并且大幅领先第二名。此外,EDVR在视频超分辨率和去模糊任务上也表现出优于当前已发表的最先进方法的性能。代码可在https://github.com/xinntao/EDVR 获取。