用上下文驱动学习:重新定义大语言模型的持续记忆机制
大型语言模型(LLM)的上下文处理能力近年来持续提升,许多模型已能容纳数万甚至百万级token的输入。然而,尽管具备“长记忆”能力,这些模型仍频繁重复错误,无法像人类一样从过往经验中学习并自适应改进。这暴露出当前LLM“记忆”与人类记忆的本质差异:人类能从经验中提炼出直觉和规律,而现有模型只是被动存储信息,无法真正“内化”知识。 为解决这一问题,研究团队提出一种名为“端到端测试时训练”(TTT-E2E)的新方法。该方法的核心思想是:在推理阶段,让模型通过“下一词预测”任务,将输入的上下文信息压缩进自身参数中,实现“在测试时学习”。这相当于让模型在使用过程中不断“更新大脑”,而非仅依赖预训练的静态知识。 实验结果表明,TTT-E2E在长上下文场景下表现卓越。在128K上下文长度下,其损失(loss)表现优于全注意力(full attention)Transformer,且在200万token的超长上下文中,推理速度比全注意力快35倍。更重要的是,TTT-E2E的推理延迟与上下文长度无关,保持恒定,兼具高效率与高准确率,是目前唯一在“损失”和“延迟”两个维度上均实现良好可扩展性的方法。 与传统方法不同,TTT-E2E在训练阶段采用元学习(meta-learning)初始化,使模型在测试时能更高效地通过自训练优化自身。这使其在端到端意义上实现“从上下文到参数”的动态更新,而不仅是依赖外部检索。 研究者将TTT类比为“更新大脑”,而RAG(检索增强生成)则像“记在便签上查”。便签仍具实用价值,但真正决定智能体效率的,是其内化知识的能力。TTT-E2E正是朝着这一方向迈出的关键一步。 当前方法的局限在于训练阶段的元学习需支持梯度的梯度,目前计算效率较低。研究团队正探索通过自定义注意力核或改进初始化方式来优化。相关论文与代码已公开,欢迎社区共同推进。 该研究或预示,2026年有望迎来长上下文LLM的真正突破。
