无需训练的多模态规划和结构化噪声初始化在文本到视频生成中的引导
Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
发布日期: 4/16/2025

摘要
近期,文本到视频(T2V)扩散模型的进展显著提升了生成视频的视觉质量。然而,即使是最近的T2V模型,在准确遵循文本描述方面仍面临挑战,尤其是在提示需要精确控制空间布局或物体轨迹时。最近的一项研究提出了一种布局引导方法,用于需要微调或在推理过程中迭代操作注意力图的T2V模型。这显著增加了内存需求,使得将大型T2V模型作为骨干变得困难。为了解决这一问题,我们引入了Video-MSG,这是一种基于多模态规划和结构化噪声初始化的无训练引导方法。 Video-MSG 包括三个步骤。在前两个步骤中,Video-MSG 创建了一个视频草图(Video Sketch),这是一个用于最终视频的细粒度时空计划,指定了背景、前景和物体轨迹,形式为草稿视频帧。在最后一个步骤中,Video-MSG 通过噪声反转和去噪过程,使用视频草图引导下游的T2V扩散模型。值得注意的是,Video-MSG 在推理过程中不需要微调或额外内存中的注意力操作,这使得采用大型T2V模型变得更加容易。 我们在流行的T2V生成基准(T2VCompBench 和 VBench)上使用多个T2V骨干模型(VideoCrafter2 和 CogVideoX-5B)验证了Video-MSG的有效性。我们还提供了关于噪声反转比例、不同的背景生成器、背景物体检测和前景物体分割的全面消融研究。