8 个月前

摘要

大多数视频帧插值方法通过计算视频相邻帧之间的双向光流，然后采用合适的变形算法生成输出帧。然而，依赖光流的方法往往无法直接从视频中建模遮挡和复杂的非线性运动，并引入了额外的瓶颈，这些瓶颈不适合广泛部署。我们通过FLAVR（Flexible and efficient Architecture for Video frame interpolation using 3D space-time convolutions）解决了这些问题，这是一种灵活且高效的架构，利用3D时空卷积实现端到端的视频帧插值学习和推理。我们的方法能够高效地理解和处理非线性运动、复杂遮挡和时间抽象，从而在视频插值方面取得了更好的性能，同时无需提供任何形式的光流或深度图作为额外输入。由于其简洁性，FLAVR在多帧插值上的推理速度比当前最准确的方法快3倍，而不会损失插值精度。此外，我们在多种具有挑战性的设置下对FLAVR进行了评估，并在各种流行的基准测试（包括Vimeo-90K、UCF101、DAVIS、Adobe和GoPro）中始终展示了优于先前方法的定性和定量结果。最后，我们证明了FLAVR在视频帧插值中的应用可以作为动作识别、光流估计和运动放大等任务中有用的自监督预训练任务。

源 PDF