Command Palette

Search for a command to run...

1 个月前

VChain:用于视频生成推理的视觉思维链

Ziqi Huang Ning Yu Gordon Chen Haonan Qiu Paul Debevec Ziwei Liu

VChain:用于视频生成推理的视觉思维链

摘要

近期的视频生成模型能够生成流畅且视觉效果出色的视频片段,但在合成具有连贯因果关系的复杂动态过程方面仍面临挑战。准确建模随时间演化的视觉结果与状态变迁,依然是该领域的一项核心难题。相比之下,大型语言模型与多模态模型(如 GPT-4o)展现出强大的视觉状态推理与未来预测能力。为融合这些优势,我们提出 VChain——一种新颖的推理时“视觉思维链”框架,该框架将多模态模型的视觉推理信号注入视频生成过程。具体而言,VChain 包含一个专用流水线,利用大型多模态模型生成一组稀疏的关键帧作为场景快照,随后仅在这些关键时间点对预训练视频生成器进行稀疏的推理时微调。该方法具有高效的参数调优特性,引入的计算开销极小,且无需密集监督。在复杂、多步骤场景下的大量实验表明,VChain 显著提升了生成视频的质量。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供