6 个月前

计算机视觉

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

摘要

扩散模型在视频生成与视频编辑任务中得到了广泛应用。由于这两个领域各自面临特定的任务挑战，仅依靠单一扩散模型难以同时高效完成两项任务。尽管当前基于文本提示的视频扩散模型在一定程度上具备统一两项任务的潜力，但其在对齐文本与图像等异构模态方面能力有限，容易引发多种模态错位问题。为此，本文首次提出一种统一的多对齐扩散模型——MagDiff，用于实现高质量视频生成与编辑。所提出的MagDiff引入三种类型的对齐机制：基于主体的对齐、自适应提示对齐以及高保真对齐。其中，基于主体的对齐旨在协调图像与文本提示之间的关系，作为两项任务共用的统一生成基础模型；自适应提示对齐通过为图像与文本提示分配不同的权重，突出同构与异构对齐各自的优势；高保真对齐则通过将主体图像作为额外输入，进一步提升视频生成与编辑的保真度。在四个基准数据集上的实验结果表明，所提方法在各项任务上均显著优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Haoyu Zhao Tianyi Lu Jiaxi Gu Xing Zhang Qingping Zheng Zuxuan Wu Hang Xu Yu-Gang Jiang

摘要

扩散模型在视频生成与视频编辑任务中得到了广泛应用。由于这两个领域各自面临特定的任务挑战，仅依靠单一扩散模型难以同时高效完成两项任务。尽管当前基于文本提示的视频扩散模型在一定程度上具备统一两项任务的潜力，但其在对齐文本与图像等异构模态方面能力有限，容易引发多种模态错位问题。为此，本文首次提出一种统一的多对齐扩散模型——MagDiff，用于实现高质量视频生成与编辑。所提出的MagDiff引入三种类型的对齐机制：基于主体的对齐、自适应提示对齐以及高保真对齐。其中，基于主体的对齐旨在协调图像与文本提示之间的关系，作为两项任务共用的统一生成基础模型；自适应提示对齐通过为图像与文本提示分配不同的权重，突出同构与异构对齐各自的优势；高保真对齐则通过将主体图像作为额外输入，进一步提升视频生成与编辑的保真度。在四个基准数据集上的实验结果表明，所提方法在各项任务上均显著优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

MagDiff：用于高保真视频生成与编辑的多对齐扩散模型 | 论文 | HyperAI超神经