HyperAIHyperAI

Command Palette

Search for a command to run...

用于视频预测与补全的扩散模型

Tobias Höppe Arash Mehrjou Stefan Bauer Didrik Nielsen Andrea Dittadi

摘要

预测未来结果或对序列中缺失信息进行推理,是智能体做出明智决策的关键能力,这需要具备强大且时间上连贯的生成能力。扩散模型在多个生成任务中已展现出卓越性能,但在视频领域的应用尚未得到充分探索。本文提出随机掩码视频扩散模型(Random-Mask Video Diffusion, RaMViD),通过引入三维卷积将图像扩散模型扩展至视频领域,并在训练过程中提出一种新的条件控制机制。通过改变所施加的掩码模式,该模型能够实现视频预测、内容补全(infilling)和超分辨率重建。由于采用了简洁的条件控制方案,模型可沿用无条件训练时的相同架构,从而实现条件与无条件训练的统一。我们在两个视频预测基准数据集上对RaMViD进行了评估,均取得了当前最优性能,并在另一个视频生成任务上进行了验证。高分辨率视频生成结果可访问 https://sites.google.com/view/video-diffusion-prediction 查看。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供