HyperAIHyperAI

Command Palette

Search for a command to run...

人工智能与大脑的交汇:从认知神经科学到自主智能体的记忆系统

Abstract

记忆作为连接过去与未来的枢纽,在人类与人工智能系统中均发挥着至关重要的作用,为应对复杂任务提供了宝贵的概念与经验支持。近年来,自主智能体(autonomous agents)的研究日益聚焦于借鉴认知神经科学的成果,设计高效的记忆工作流。然而,受限于跨学科壁垒,现有研究在吸收人类记忆机制核心原理方面仍面临显著挑战。为弥合这一差距,本文系统性地整合了记忆领域的跨学科知识,将认知神经科学的洞见与基于大语言模型(LLM)的智能体研究相连接。具体而言,本文首先沿着从认知神经科学到大语言模型,再到智能体的演进路径,阐明记忆的定义与功能。随后,从生物与人工两个维度,对记忆的分类体系、存储机制以及完整的管理生命周期进行了对比分析。在此基础上,系统梳理了当前主流的智能体记忆评估基准。此外,本文还从攻击与防御双重视角探讨了记忆系统的安全性问题。最后,展望了未来研究方向,重点关注多模态记忆系统与技能习得机制的构建。

一句话总结

哈尔滨工业大学、复旦大学、北京大学与新加坡国立大学联合发布了一项关于记忆系统的统一综述,提出了一种融合认知神经科学与大语言模型驱动智能体的综合性分类体系,从自然属性与作用范围两个维度对记忆进行分类。该工作系统分析了生物与人工系统中的记忆存储、管理与安全机制,提出了一种闭环式记忆提取、更新、检索与利用框架。研究强调了层次化记忆结构、动态调度机制与潜在记忆表征等关键创新,其应用涵盖长周期规划、个性化智能体行为以及安全记忆系统,同时展望了多模态记忆与跨智能体技能迁移等未来方向。

主要贡献

  • 本综述通过建立统一框架,弥合了认知神经科学与人工智能之间的鸿沟,系统性地理解人类大脑、大语言模型(LLMs)与自主智能体中的记忆机制,强调其作为动态认知中枢在学习、适应与长周期规划中的核心作用。
  • 提出一种基于自然属性(程序性 vs. 概念性)与作用范围(轨迹内 vs. 轨迹间)的新型二维记忆分类体系,并对生物与人工系统中的记忆存储机制与管理生命周期(包括编码、检索、更新与利用)进行了对比分析。
  • 系统性地通过语义导向与情景导向的基准测试评估智能体记忆能力,针对记忆安全问题开展攻击与防御分析,并展望了多模态记忆融合与跨智能体可复用技能迁移的未来方向。

引言

作者借鉴认知神经科学的洞见,应对人工智能领域一个关键挑战:使自主智能体具备类人记忆系统,以支持长期学习、个性化表达与自适应决策。尽管以往关于智能体记忆的研究多处于孤立状态——或聚焦于大语言模型中的技术实现,或仅表面引用生物原理——这些方法未能捕捉真实记忆所具有的动态性、层次性与交互性特征。本文的核心贡献在于构建了一个跨学科的统一框架,系统映射记忆在三个层面的表现:认知神经科学、大语言模型与智能体。该框架包含一种新型二维分类体系——基于自然属性(情景记忆 vs. 语义记忆)与作用范围(轨迹内 vs. 轨迹间),对存储机制(如持续活动 vs. 向量数据库)进行对比分析,并提出涵盖编码、巩固、检索与更新的完整记忆管理生命周期模型。此外,本文将记忆安全列为关键议题,分析攻击路径与防御策略,并指出多模态记忆融合与跨智能体技能迁移的未来方向,使本工作成为构建更智能、更鲁棒、更符合人类价值观智能体的基础性资源。

数据集

  • 数据集包含一组精心筛选的基准测试,用于评估基于大语言模型的智能体的记忆能力,主要分为两大类:语义导向与情景导向基准。
  • 语义导向基准关注内部状态管理,包括记忆保持能力、检索保真度、动态更新能力以及在不断演化的上下文中进行泛化的能力。
  • 关键基准包括 LoCoMo、LOCCO、BABILong、MPR、RULER、HotpotQA、PerLTQA、MemDaily、MemBench、LongMemEval、MemoryBank、DialSim、PrefEval、SHARE、LTMBenchmark、StoryBench、MemoryAgentBench、Evo-Memory、HaluMem、LifelongAgentBench 与 StreamBench。
  • 这些基准在规模与来源上各不相同,多数源自对话数据集、长篇叙事语料库或特定任务评估环境。
  • 过滤规则优先选择测试长上下文保持能力、抗检索噪声能力以及在长时间交互中应对累积干扰能力的任务。
  • 论文利用这些基准构建训练与评估混合数据集,根据目标记忆属性(保真度、动态性、泛化性)分配不同权重。
  • 数据处理包括输入格式标准化、元数据对齐(如对话长度、记忆跨度),以及将长对话分割为可管理的上下文窗口。
  • 采用裁剪策略将输入长度限制在 4K 标记,确保计算可行性的同时保留关键上下文。
  • 构建元数据以追踪记忆在多轮交互中的演化过程,包括时间戳、更新事件与错误修正实例。
  • 混合比例侧重于保真度与动态性作为核心训练目标,泛化性基准则用于验证与微调。

方法

作者提出一个综合性的智能体记忆框架,融合结构化存储、动态调度与认知处理,以实现持久、自适应且基于经验的行为。该框架围绕记忆管理的闭环流程构建,包括提取、更新、检索与利用,形成一个认知操作系统,使智能体从无状态响应者进化为具备长程推理能力的持续学习者。整体架构如图5所示,展示了该过程的循环特性。

记忆提取作为初始阶段,将原始交互流转化为结构化记录。该过程分为三种范式:扁平化提取,直接记录或对原始信息进行轻量级预处理;层次化提取,通过多粒度抽象将碎片化信息组织为有序结构,以模拟人类认知灵活性;生成式提取,在推理过程中动态重构上下文,以减轻计算开销。作者进一步区分情景记忆(捕捉具体事件与轨迹)与语义记忆(抽象事实知识与用户画像),使智能体能够维持对环境与交互的连贯理解。

提取之后,记忆更新确保系统的可塑性与效率,平衡新信息的摄入与过时数据的清除。该过程在两个层面运行:轨迹内更新,即在特定任务执行期间动态刷新即时上下文窗口(工作记忆),以应对信息衰减与过载;轨迹间更新,即管理外部知识库(长期记忆)的生命周期,解决无限知识扩展与有限存储容量之间的矛盾。这涉及选择性保留与遗忘机制,包括受生物学启发的策略如艾宾浩斯遗忘曲线与竞争抑制理论,以及强化学习,用于训练智能体自主探索最优的知识保留与遗忘策略。

记忆检索是连接保留经验与动态决策的关键桥梁。其作为由当前上下文线索驱动的选择性激活机制,过滤无关噪声,使智能体能在有限上下文窗口内利用庞大的知识库。检索策略分为基于相似性的检索,优先通过编码器将查询映射为高维向量以实现语义匹配;以及多因素检索,整合时间新近性、重要性、结构效率与预期奖励等多维指标,以确定记忆优先级。这一向结构化与策略驱动检索机制的演进,使智能体能够像人类认知引导者一样运作。

最后,记忆应用通过两种主要范式引导行为:上下文增强与参数内化。上下文增强涉及动态合成碎片化信息,例如从无损存储中构建任务优化上下文,或压缩历史交互至共享表征空间,以维持一致人格并主动复用过往经验进行推理。参数内化将显式记忆转化为隐式参数,通过蒸馏等技术将记忆固化为模型,实现低成本经验回溯并推动智能体自我演化。该过程进一步通过强化学习增强,将采样轨迹视为情景记忆以内化探索策略,从而消除检索延迟并提升决策稳定性。

该框架旨在应对长周期交互中的关键挑战,如突破上下文窗口限制与构建长期个性化档案。为克服上下文窗口的物理限制,作者采用启发式上下文设计,利用层次化结构设计实现物理压缩与虚拟索引化,以及自主记忆优化,将记忆管理内化为智能体的内在行为,实现端到端的自主优化。这使智能体能够将无限交互流映射至有限注意力预算,从被动的线性截断转向动态上下文重构。对于个性化体验,框架通过从复杂交互流中提炼核心特征,构建长期用户档案,使智能体在两个维度上适应用户:档案构建与偏好对齐执行。这确保智能体在长周期交互中始终维持对“用户是谁”与“关系状态如何”的连贯认知。

实验

  • 情景导向基准验证了记忆系统在复杂现实任务中提升智能体性能的能力,使其能够实现长期状态追踪、动态更新与跨会话推理。
  • 在 WebChoreArena、WebArena 与 WebShop 上,具备高效记忆的智能体在动态网页导航中展现出更高的功能正确性与逻辑完整性,凸显记忆在维持长任务流一致性中的重要性。
  • 在 ToolBench、GAIA 与 xBench-DS 上,记忆支持准确的工具模式检索与上下文保持,在多模态、长周期工作流中减少执行幻觉,支持自适应试错机制。
  • 在 ScienceWorld 与 BabyAI 中,记忆通过保留并组合子目标提升样本效率与因果推理能力;而 Mind2Web 与 PersonalWAB 表明,记忆在噪声大、异构环境中支持跨领域泛化与个性化意图对齐。
  • AgentOccam 显示,记忆必须支持观测剪枝与重建,以在复杂网页环境中维持有效的感知-动作对齐。
  • 基于提取的攻击表明,记忆可能泄露敏感用户数据:Wang 等人通过黑盒提示攻击成功提取私密交互历史,Zeng 等人量化了 RAG 系统中的隐私风险。
  • 基于投毒的攻击显示,注入记忆的恶意内容可劫持智能体行为:Chen 等人与 Cheng 等人通过检索权重操纵制造隐蔽后门,Abdelnabi 等人与 Dong 等人表明,不可信数据可诱导智能体在无后端访问的情况下存储并执行恶意记忆。
  • Yang 等人与 Bagwe 等人证明,注入噪声或偏见信息会损害智能体判断力,导致价值扭曲,产生无效或歧视性输出。

作者使用情景导向基准评估记忆系统如何使智能体利用过往经验提升在复杂现实任务中的表现。结果表明,有效的记忆机制对于维持一致性、支持动态更新以及在网页交互、工具使用与环境推理等多样化场景中实现泛化至关重要。

作者使用表2对情景导向基准进行对比分析,聚焦其在保真度、动态性与泛化性方面的属性。结果显示,尽管许多基准支持长期记忆评估与动态推理,但大量基准缺乏保真度与泛化能力,表明其在评估复杂多变任务场景中鲁棒记忆性能方面存在明显不足。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供