HyperAI超神经

4 天前

面对大型语言模型在长上下文任务中注意力机制扩展性差的问题，研究人员提出了一种类睡眠的巩固机制。该研究指出，Transformer 模型在处理超长语境时面临性能瓶颈，因此团队设计了独特的“睡眠”流程：模型会定期将近期语境转换为持久化的快速权重，随后清空键值缓存以释放内存。在模拟“睡眠”阶段，模型会对累积的语境进行多次离线循环遍历，并通过学习到的局部规则，在状态空间模型（SSM）模块中更新快速权重。这一创新策略将额外的计算负担转移至睡眠阶段，从而在预测阶段保持与传统模型相同的低延迟。研究团队在多种任务中验证了该方法的有效性。测试涵盖了细胞自动机、多跳图检索等受控合成任务，以及复杂的数学推理任务。实验结果显示，传统的 Transformer 模型以及 SSM 与注意力混合的模型在这些任务上均表现不佳，而采用睡眠机制的模型则成功解决了这些问题。数据显示，增加睡眠阶段的循环次数（N）能显著提升模型性能，特别是在需要深层推理的复杂示例中，效果提升尤为明显。该研究不仅为突破长上下文限制提供了新思路，也为未来构建更高效、更智能的 AI 系统奠定了理论基础。相关成果已作为预印本发布，标志着语言模型在模拟生物记忆巩固机制方面迈出了重要一步。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

大型语言模型也需要睡眠

相关链接

Command Palette

大型语言模型也需要睡眠

相关链接

Command Palette

大型语言模型也需要睡眠

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答