Command Palette

Search for a command to run...

2 个月前

上下文混合用于长视频生成

Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

上下文混合用于长视频生成

摘要

长视频生成本质上是一个长时记忆问题:模型必须在长时间跨度内保持并检索关键事件,而不会出现信息坍塌或漂移。然而,将扩散Transformer模型扩展用于生成长上下文视频时,其性能受到自注意力机制二次计算开销的根本限制,导致长序列下的记忆与计算变得不可行,且难以优化。为此,我们将长上下文视频生成重新建模为一项内部信息检索任务,并提出一种简单且可学习的稀疏注意力路由模块——上下文混合(Mixture of Contexts, MoC),作为高效的长期记忆检索引擎。在MoC中,每个查询动态选择若干具有信息量的片段,以及若干强制锚点(如文本描述、局部窗口)进行注意力聚焦,同时采用因果路由机制以防止循环闭合。随着数据规模的扩大和路由过程逐步稀疏化,模型能够将计算资源集中于关键历史信息,从而在数分钟的视频内容中有效保持对象身份、动作与场景的一致性。高效的计算性能作为检索机制的自然结果(接近线性扩展),使得实际训练与生成成为可能,并在分钟级规模下涌现出稳定的记忆能力与内容一致性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供