Command Palette

Search for a command to run...

15 天前

HaluMem:评估Agent记忆系统中的幻觉

Ding Chen Simin Niu Kehang Li Peng Liu Xiangping Zheng Bo Tang Xinchi Li Feiyu Xiong Zhiyu Li

HaluMem:评估Agent记忆系统中的幻觉

摘要

记忆系统是实现大语言模型(LLMs)和AI智能体长期学习与持续交互的关键组件。然而,在记忆的存储与检索过程中,这些系统常出现记忆幻觉(memory hallucinations),表现为虚构、错误、冲突和遗漏等问题。当前对记忆幻觉的评估主要采用端到端的问答方式,难以精确定位幻觉在记忆系统中具体发生在哪个操作阶段。为解决这一问题,我们提出首个面向记忆系统、基于操作层级的幻觉评估基准——记忆幻觉基准(HaluMem)。HaluMem定义了三项评估任务:记忆提取、记忆更新和记忆问答,以全面揭示不同交互操作阶段中的幻觉行为。为支持评估,我们构建了以用户为中心的多轮人机交互数据集——HaluMem-Medium与HaluMem-Long,两者均包含约1.5万个记忆点和3,500个多类型问题。每位用户的平均对话轮次分别达到1,500和2,600轮,上下文长度超过100万token,能够支持在不同上下文规模和任务复杂度下对幻觉现象的系统性评估。基于HaluMem的实证研究表明,现有记忆系统在记忆提取与更新阶段容易产生并累积幻觉,这些错误随后会传播至问答阶段。未来研究应聚焦于发展可解释、受约束的记忆操作机制,以系统性地抑制幻觉,提升记忆系统的可靠性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供