17 天前

ST-MFNet:一种用于帧插值的时空多流网络

Duolikun Danier, Fan Zhang, David Bull
ST-MFNet:一种用于帧插值的时空多流网络
摘要

视频帧插值(Video Frame Interpolation, VFI)目前是计算机视觉领域一个极为活跃的研究方向,广泛应用于计算机视觉、后期制作以及视频编码等多个场景。然而,当视频序列中包含大运动、遮挡或动态纹理等复杂情况时,VFI任务极具挑战性,现有方法往往难以提供具有良好感知质量的插值效果。针对这一问题,本文提出一种基于深度学习的新方法——ST-MFNet,其核心架构为时空多流(Spatio-Temporal Multi-Flow)网络。ST-MFNet引入了一种新型的多尺度多流预测器,用于估计从多帧到单帧的中间光流,再与传统的单对单光流相结合,从而有效捕捉大范围且复杂的运动模式。为提升对各类纹理的插值性能,该方法进一步采用三维卷积神经网络(3D CNN),在更长的时间窗口内建模内容的动态变化,增强对时间连续性的建模能力。此外,ST-MFNet在ST-GAN(Spatio-Temporal Generative Adversarial Network)框架下进行训练,该框架最初专为纹理合成设计,旨在进一步优化插值结果的感知质量。我们对所提出的方法进行了全面评估,将其与十四种当前最先进的VFI算法在多个具有代表性的测试数据集上进行对比。实验结果清晰表明,ST-MFNet在各类复杂场景下均显著优于现有基准方法,尤其在包含大运动和动态纹理的案例中,峰值信噪比(PSNR)提升最高可达1.09 dB。项目主页:https://danielism97.github.io/ST-MFNet。