
摘要
运动是视频预测中的重要线索,通常通过将视频内容分解为静态与动态两部分来加以利用。以往大多数基于运动的方法均为确定性模型,尽管已有部分随机性方法能够建模未来发展的固有不确定性。然而,现有的随机模型要么未能显式地对运动进行建模,要么对静态部分做出了过于受限的假设。本文提出一种基于运动历史的随机建模方法,对视频的外观和运动进行联合的随机推理。即使不依赖运动历史,仅通过显式建模运动已可达到当前先进随机模型的性能水平;而引入运动历史后,模型能够更准确地预测未来多帧的一致性动态行为,进一步提升预测效果。在通用视频预测数据集上,本模型性能与当前最先进方法相当;而在两个具有复杂运动和动态背景的现实世界自动驾驶数据集上,本模型则显著优于现有方法。