大型语言模型也需要睡眠
面对大型语言模型在长上下文任务中注意力机制扩展性差的问题,研究人员提出了一种类睡眠的巩固机制。该研究指出,Transformer 模型在处理超长语境时面临性能瓶颈,因此团队设计了独特的“睡眠”流程:模型会定期将近期语境转换为持久化的快速权重,随后清空键值缓存以释放内存。 在模拟“睡眠”阶段,模型会对累积的语境进行多次离线循环遍历,并通过学习到的局部规则,在状态空间模型(SSM)模块中更新快速权重。这一创新策略将额外的计算负担转移至睡眠阶段,从而在预测阶段保持与传统模型相同的低延迟。 研究团队在多种任务中验证了该方法的有效性。测试涵盖了细胞自动机、多跳图检索等受控合成任务,以及复杂的数学推理任务。实验结果显示,传统的 Transformer 模型以及 SSM 与注意力混合的模型在这些任务上均表现不佳,而采用睡眠机制的模型则成功解决了这些问题。 数据显示,增加睡眠阶段的循环次数(N)能显著提升模型性能,特别是在需要深层推理的复杂示例中,效果提升尤为明显。该研究不仅为突破长上下文限制提供了新思路,也为未来构建更高效、更智能的 AI 系统奠定了理论基础。相关成果已作为预印本发布,标志着语言模型在模拟生物记忆巩固机制方面迈出了重要一步。
