7 天前

MagDiff:用于高保真视频生成与编辑的多对齐扩散模型

Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang
MagDiff:用于高保真视频生成与编辑的多对齐扩散模型
摘要

扩散模型在视频生成与视频编辑任务中得到了广泛应用。由于这两个领域各自面临特定的任务挑战,仅依靠单一扩散模型难以同时高效完成两项任务。尽管当前基于文本提示的视频扩散模型在一定程度上具备统一两项任务的潜力,但其在对齐文本与图像等异构模态方面能力有限,容易引发多种模态错位问题。为此,本文首次提出一种统一的多对齐扩散模型——MagDiff,用于实现高质量视频生成与编辑。所提出的MagDiff引入三种类型的对齐机制:基于主体的对齐、自适应提示对齐以及高保真对齐。其中,基于主体的对齐旨在协调图像与文本提示之间的关系,作为两项任务共用的统一生成基础模型;自适应提示对齐通过为图像与文本提示分配不同的权重,突出同构与异构对齐各自的优势;高保真对齐则通过将主体图像作为额外输入,进一步提升视频生成与编辑的保真度。在四个基准数据集上的实验结果表明,所提方法在各项任务上均显著优于现有方法。

MagDiff:用于高保真视频生成与编辑的多对齐扩散模型 | 最新论文 | HyperAI超神经