
摘要
视频预测是一项像素级任务,旨在通过历史帧生成未来的帧。视频中通常存在连续复杂的运动,例如物体重叠和场景遮挡,这些现象给该任务带来了巨大挑战。以往的方法要么难以有效捕捉长期的时间动态,要么未能妥善处理遮挡掩码问题。为解决上述问题,本文提出了一种全卷积的快速傅里叶Inception网络用于视频预测,命名为FFINet,其包含两个核心组件:遮挡修复模块(occlusion inpainter)和时空转换模块(spatiotemporal translator)。前者采用快速傅里叶卷积(fast Fourier convolutions)扩展感受野,从而能够利用上下文信息对具有复杂几何结构的缺失区域(即遮挡区域)进行有效填充;后者则通过堆叠的傅里叶变换Inception模块,结合分组卷积学习时间演化过程,并通过通道级傅里叶卷积建模空间运动,从而同时捕捉局部与全局的时空特征。该设计显著提升了未来帧生成的逼真度与质量。为优化模型性能,本文在目标函数中引入恢复损失(recovery loss),即最小化真实帧与重建帧之间的均方误差。在五个基准数据集(包括Moving MNIST、TaxiBJ、Human3.6M、Caltech Pedestrian和KTH)上的定量与定性实验结果均验证了所提方法的优越性。相关代码已开源,可于GitHub获取。