5 个月前

计算机视觉

Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

摘要

长视频生成本质上是一个长时记忆问题：模型必须在长时间跨度内保持并检索关键事件，而不会出现信息坍塌或漂移。然而，将扩散Transformer模型扩展用于生成长上下文视频时，其性能受到自注意力机制二次计算开销的根本限制，导致长序列下的记忆与计算变得不可行，且难以优化。为此，我们将长上下文视频生成重新建模为一项内部信息检索任务，并提出一种简单且可学习的稀疏注意力路由模块——上下文混合（Mixture of Contexts, MoC），作为高效的长期记忆检索引擎。在MoC中，每个查询动态选择若干具有信息量的片段，以及若干强制锚点（如文本描述、局部窗口）进行注意力聚焦，同时采用因果路由机制以防止循环闭合。随着数据规模的扩大和路由过程逐步稀疏化，模型能够将计算资源集中于关键历史信息，从而在数分钟的视频内容中有效保持对象身份、动作与场景的一致性。高效的计算性能作为检索机制的自然结果（接近线性扩展），使得实际训练与生成成为可能，并在分钟级规模下涌现出稳定的记忆能力与内容一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

计算机视觉

Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

摘要

长视频生成本质上是一个长时记忆问题：模型必须在长时间跨度内保持并检索关键事件，而不会出现信息坍塌或漂移。然而，将扩散Transformer模型扩展用于生成长上下文视频时，其性能受到自注意力机制二次计算开销的根本限制，导致长序列下的记忆与计算变得不可行，且难以优化。为此，我们将长上下文视频生成重新建模为一项内部信息检索任务，并提出一种简单且可学习的稀疏注意力路由模块——上下文混合（Mixture of Contexts, MoC），作为高效的长期记忆检索引擎。在MoC中，每个查询动态选择若干具有信息量的片段，以及若干强制锚点（如文本描述、局部窗口）进行注意力聚焦，同时采用因果路由机制以防止循环闭合。随着数据规模的扩大和路由过程逐步稀疏化，模型能够将计算资源集中于关键历史信息，从而在数分钟的视频内容中有效保持对象身份、动作与场景的一致性。高效的计算性能作为检索机制的自然结果（接近线性扩展），使得实际训练与生成成为可能，并在分钟级规模下涌现出稳定的记忆能力与内容一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供