HyperAI超神经
Back to Headlines

泰坦架构:为大型语言模型带来动态记忆与自适应学习能力

5 days ago

Meta 的研究团队在 2025 年提出了名为 CoCoMix 的框架,实现了大型语言模型(LLM)的概念学习能力,使其能够理解词语背后的含义,而不仅仅是预测下一个词。然而,即使是最先进的概念学习模型,在训练后部署时也面临细致或具体回忆的挑战。例如,你可能问一个简单的问题:“在这场长达 2 百万词的对话中,我们之前讨论过匹诺曹那不断变大的鼻子是在哪里?” 如果答案不在上下文窗口内,LLM 就无法回答。 为了解决这些瓶颈,研究人员开始思考如何为智能 LLM 配备适应性强的“记忆”系统。与传统的 Transformer 架构相比,Meta 团队设计了名为 Titan 的新架构,旨在通过合作的组件来管理和适应不同类型的信息和体验,而不是依赖单一的注意力机制。 Titan 的架构 1. 短期记忆模块(STM) STM 是专注于当前任务的强大专家,类似于人类的记忆,它能够记住对方刚刚说的话,以便及时回应。 2. 长期记忆模块(LMM) LMM 是 Titan 架构中最激动人心的部分。它能够在推理过程中动态调整参数,从而实现即时学习和适应。LMM 通过计算当前数据的“惊讶”程度(梯度损失函数)来决定哪些信息需要保存,哪些可以忘记。此外,LMM 还结合历史学习趋势,更智能地更新参数。 3. 持久记忆模块(PM) PM 模块存储了大量的任务特定知识,这些知识在训练过程中学到并固定下来。就像我们的性格和技能一样,PM 提供了一个坚实的基础,使其他两个模块能够在其基础上进一步发挥作用。 记忆模块的实施方式 1. 内存作为上下文(MAC) 在 MAC 结构中,Titan 通过分段处理输入序列,利用 LMM 获取相关的历史上下文,然后将其与 PM 和当前段落合并,形成一个扩展的上下文。STM(自注意力机制)处理这个扩展的上下文,生成最终结果。 2. 内存作为门控(MAG) MAG 结构将输入序列分别送入 STM 和 LMM,STM 使用滑动窗口注意力机制,LMM 动态更新参数并生成输出。两者的结果通过一个门控机制融合,决定最终输出。 3. 内存作为层(MAL) MAL 结构首先将输入序列送入 LMM,然后 LMM 生成一个转换后的输出序列,作为后续 STM 的输入。这样的设计使得 LMM 能够在推理过程中不断优化和调整参数。 实验结果 语言能力 Titan 在语言建模和常识推理任务上表现出色,特别是其 MAC 结构,在多个基准测试中显著超过了 Transformer++ 和其他最新的循环模型。 长文本处理能力 Titan 在 S-NIAH 任务(评估有效上下文长度)中表现出色,在处理 16K 个令牌的超长序列时仍能保持高准确率。即使是处理 1000 万个令牌的超长序列,Titan 的最大模型(7.6 亿参数)也能达到 70% 的准确率。 复杂推理能力 在 BABILong 基准测试中,Titan 的 MAC 结构表现尤为突出,能够在处理大量上下文中有效地进行多事实推理。相比之下,即使是 GPT-4 和 Llama 3.1–70B 等大模型,即便有外部工具支持,也无法超越 Titan。 跨领域应用 Titan 的内存机制不仅适用于语言任务,还在时间序列预测和 DNA 建模等完全不同的领域展示了强大的性能,显示出其广泛的应用潜力。 业内评价及公司背景 Google 和 Meta 是人工智能领域的领军企业,持续推动技术创新。Google 在 2017 年发明了 Transformer 架构,Meta 在 2025 年推出了 CoCoMix 和 Titan 架构。Titans 的研究不仅解决了当前 Transformer 架构的一些局限性,还为进一步改进 AI 的记忆和学习能力提供了新的思路。业内人士普遍认为,尽管 AI 领域竞争激烈,但 Titan 的创新为未来的智能化发展指明了方向。

Related Links