8 天前
长视频的柔性扩散建模
William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach, Frank Wood

摘要
我们提出了一种基于去噪扩散概率模型的视频建模框架,能够生成在多种真实环境下的长时长视频补全结果。我们引入了一种生成模型,该模型在推理阶段可基于任意已知的视频帧子集,采样任意其他子集的视频帧,并为此目的设计了相应的网络架构。该方法使我们能够高效地比较与优化长视频中帧采样的顺序策略,并实现对先前采样帧的有选择性、稀疏且具有长距离依赖关系的条件建模。我们在多个数据集上展示了该方法相较于以往工作的显著性能提升,并成功生成了时长超过25分钟的时序连贯视频。此外,我们还发布了一个新的视频建模数据集,以及基于CARLA自动驾驶仿真器生成视频所构建的语义有意义的评估指标。