2 个月前

基于自适应可分离卷积的视频帧插值

Simon Niklaus; Long Mai; Feng Liu

摘要

标准的视频帧插值方法首先估计输入帧之间的光流，然后在运动引导下合成中间帧。近期的方法通过使用同时考虑运动和重采样的空间自适应核对输入帧进行卷积，将这两个步骤合并为一个卷积过程。然而，这些方法需要较大的核来处理大范围的运动，这导致由于内存需求较大而一次只能估计有限数量的像素核。为了解决这一问题，本文提出了一种基于输入帧的局部可分离卷积的帧插值方法，该方法使用一对一维（1D）核。与常规的二维（2D）核相比，一维核需要估计的参数显著减少。我们的方法开发了一个深度全卷积神经网络，该网络接收两个输入帧并同时为所有像素估计一对一维核。由于我们的方法能够一次性估计所有像素的核并合成整个视频帧，因此可以引入感知损失来训练神经网络生成视觉上令人满意的帧。这个深度神经网络利用广泛可用的视频数据进行端到端训练，无需任何人工标注。定性和定量实验均表明，我们的方法为高质量视频帧插值提供了一个实用的解决方案。