
摘要
生成能够准确预测未来世界状态的视频帧是一项具有挑战性的任务。现有的方法要么无法捕捉到所有可能结果的完整分布,要么生成的图像模糊不清,甚至两者兼有。本文介绍了一种无监督视频生成模型,该模型能够在给定环境中学习不确定性先验模型。通过从该先验模型中抽取样本,并将其与对未来帧的确定性估计相结合,从而生成视频帧。该方法简单且易于训练,可以在多种数据集上进行端到端的训练。即使在预测较远未来的帧时,生成的样本既多样化又清晰,并且与现有方法相比表现出色。
生成能够准确预测未来世界状态的视频帧是一项具有挑战性的任务。现有的方法要么无法捕捉到所有可能结果的完整分布,要么生成的图像模糊不清,甚至两者兼有。本文介绍了一种无监督视频生成模型,该模型能够在给定环境中学习不确定性先验模型。通过从该先验模型中抽取样本,并将其与对未来帧的确定性估计相结合,从而生成视频帧。该方法简单且易于训练,可以在多种数据集上进行端到端的训练。即使在预测较远未来的帧时,生成的样本既多样化又清晰,并且与现有方法相比表现出色。