4 个月前

摘要

近期的视频生成模型能够生成流畅且视觉效果出色的视频片段，但在合成具有连贯因果关系的复杂动态过程方面仍面临挑战。准确建模随时间演化的视觉结果与状态变迁，依然是该领域的一项核心难题。相比之下，大型语言模型与多模态模型（如 GPT-4o）展现出强大的视觉状态推理与未来预测能力。为融合这些优势，我们提出 VChain——一种新颖的推理时“视觉思维链”框架，该框架将多模态模型的视觉推理信号注入视频生成过程。具体而言，VChain 包含一个专用流水线，利用大型多模态模型生成一组稀疏的关键帧作为场景快照，随后仅在这些关键时间点对预训练视频生成器进行稀疏的推理时微调。该方法具有高效的参数调优特性，引入的计算开销极小，且无需密集监督。在复杂、多步骤场景下的大量实验表明，VChain 显著提升了生成视频的质量。

源 PDF 查看代码