Command Palette
Search for a command to run...
Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

摘要
长视频生成本质上是一个长时记忆问题:模型必须在长时间跨度内保持并检索关键事件,而不会出现信息坍塌或漂移。然而,将扩散Transformer模型扩展用于生成长上下文视频时,其性能受到自注意力机制二次计算开销的根本限制,导致长序列下的记忆与计算变得不可行,且难以优化。为此,我们将长上下文视频生成重新建模为一项内部信息检索任务,并提出一种简单且可学习的稀疏注意力路由模块——上下文混合(Mixture of Contexts, MoC),作为高效的长期记忆检索引擎。在MoC中,每个查询动态选择若干具有信息量的片段,以及若干强制锚点(如文本描述、局部窗口)进行注意力聚焦,同时采用因果路由机制以防止循环闭合。随着数据规模的扩大和路由过程逐步稀疏化,模型能够将计算资源集中于关键历史信息,从而在数分钟的视频内容中有效保持对象身份、动作与场景的一致性。高效的计算性能作为检索机制的自然结果(接近线性扩展),使得实际训练与生成成为可能,并在分钟级规模下涌现出稳定的记忆能力与内容一致性。