
摘要
预测未来结果或对序列中缺失信息进行推理,是智能体做出明智决策的关键能力,这需要具备强大且时间上连贯的生成能力。扩散模型在多个生成任务中已展现出卓越性能,但在视频领域的应用尚未得到充分探索。本文提出随机掩码视频扩散模型(Random-Mask Video Diffusion, RaMViD),通过引入三维卷积将图像扩散模型扩展至视频领域,并在训练过程中提出一种新的条件控制机制。通过改变所施加的掩码模式,该模型能够实现视频预测、内容补全(infilling)和超分辨率重建。由于采用了简洁的条件控制方案,模型可沿用无条件训练时的相同架构,从而实现条件与无条件训练的统一。我们在两个视频预测基准数据集上对RaMViD进行了评估,均取得了当前最优性能,并在另一个视频生成任务上进行了验证。高分辨率视频生成结果可访问 https://sites.google.com/view/video-diffusion-prediction 查看。