9 天前

VarNet:探索用于无监督视频预测的变体

{Jing Ye, Shice Liu, Qiankun Tang, Yiming Zeng, Yu Hu, Beibei Jin}
摘要

无监督视频预测由于自然场景中复杂的动态变化和多样性而极具挑战性。以往的方法直接预测像素或光流,往往面临模糊问题,或需引入额外假设。本文指出,视频帧预测的核心在于精确捕捉帧间变化,这些变化涵盖了物体的运动以及周围环境的演化过程。为此,我们提出一种无监督视频预测框架——变差网络(Variation Network, VarNet),该模型直接预测相邻帧之间的变化,并将该变化与当前帧融合,以生成未来帧。此外,我们设计了一种自适应重加权机制,用于损失函数,使每个像素根据其变化幅度获得公平的权重。我们在两个先进数据集——KTH和KITTI上,针对短时与长时视频预测任务,采用PSNR和SSIM两个评价指标进行了大量实验。在KTH数据集上,VarNet在PSNR指标上优于当前最优方法达11.9%,在SSIM指标上提升9.5%;在KITTI数据集上,PSNR性能提升高达55.1%,SSIM提升达15.9%。此外,我们通过在KITTI数据集上训练后,在未见过的CalTech行人数据集上进行测试,验证了该模型具有优于现有先进方法的泛化能力。项目源代码与演示视频已公开,详见:https://github.com/jinbeibei/VarNet。