HyperAIHyperAI

Command Palette

Search for a command to run...

10 小时前
Agent
LLM

EvoArena:追踪动态环境中鲁棒 LLM Agents 的记忆演化

摘要

大型语言模型(LLM)agents在广泛的基准测试中取得了优异的性能,然而大多数评估均假设环境为静态。相比之下,现实世界的部署本质上是动态的,要求agents不断将其知识、技能与行为同变化的环境及更新的任务条件保持一致。为弥补这一空白,我们引入了EvoArena,这是一个基准测试套件,将环境变化建模为跨越终端、软件和社会领域的渐进式更新序列。我们进一步提出了EvoMem,这是一种基于补丁的记忆范式,将记忆演化记录为结构化的更新历史,使agents能够通过记忆的变化来推理环境的演化。实验表明,当前的agents在EvoArena上面临挑战,在演化的终端、软件和社会偏好领域取得的平均准确率为39.6%。EvoMem持续提升了性能,在EvoArena上平均提升了1.5%,同时也使GAIA和LoCoMo等标准基准测试的性能分别提升了6.1%和4.8%。超越单个任务,EvoMem在EvoArena上将链级准确率进一步提升了3.7%,在该基准中,成功需要完成一系列连续的、相关的演化子任务。机制分析表明,EvoMem改善了记忆中的证据捕获能力,表明其能更好地保留完整的演化环境状态。我们的结果强调了在评估和记忆中对演化进行建模对于实现可靠的agent部署的重要性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供