
摘要
运动估计(Motion Estimation, ME)与运动补偿(Motion Compensation, MC)在过去几十年中一直是经典视频帧插值系统的核心技术。近年来,卷积神经网络为帧插值任务引入了一种新的数据驱动范式。然而,现有的基于学习的方法通常仅针对ME或MC中的一个构建模块进行建模,导致在计算效率和插值精度方面均存在性能瓶颈。为此,本文提出了一种基于运动估计与运动补偿驱动的神经网络框架,用于视频帧插值。我们设计了一种新颖的自适应扭曲层(adaptive warping layer),能够融合光流信息与插值核,以生成目标帧的像素。该层具有完全可微的特性,使得光流估计网络与插值核估计网络可联合优化。所提方法在保留ME与MC模型驱动架构优势的同时,摒弃了传统手工设计的复杂流程,通过大规模视频数据进行端到端训练,实现了高效且高质量的插值效果。相较于现有方法,本方法在计算效率方面表现更优,且生成结果在视觉质量上更具吸引力。此外,所提出的MEMC架构具备良好的通用性,可无缝扩展至多种视频增强任务,如超分辨率、去噪与去块效应处理。大量定量与定性实验结果表明,该方法在多种数据集上均显著优于当前最先进的视频帧插值与增强算法。