
摘要
在本文中,我们首先向研究社区介绍了一个包含极端运动的1000帧每秒(fps)4K视频数据集(X4K1000FPS),并提出了一种用于处理大运动4K视频的极端视频帧插值(VFI)网络,称为XVFI-Net。XVFI-Net基于一种递归多尺度共享结构,该结构由两个级联模块组成:一个用于两输入帧之间的双向光流学习(BiOF-I),另一个用于从目标帧到输入帧的双向光流学习(BiOF-T)。BiOF-T模块中提出了互补光流反转(CFR)方法,以稳定地近似光流。在推理过程中,BiOF-I模块可以从任意输入尺度开始工作,而BiOF-T模块仅在原始输入尺度上运行,从而在保持高精度VFI性能的同时加速推理过程。大量的实验结果表明,我们的XVFI-Net能够成功捕捉具有极大数据运动和复杂纹理的物体的关键信息,而现有的最先进方法则表现不佳。此外,我们的XVFI-Net框架在之前的低分辨率基准数据集上的表现也相当出色,这显示了我们算法的鲁棒性。所有源代码、预训练模型和提出的X4K1000FPS数据集均公开发布于https://github.com/JihyongOh/XVFI。