在 Discord 上讨论

10 小时前

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

摘要

大型语言模型（LLM）agents在广泛的基准测试中取得了优异的性能，然而大多数评估均假设环境为静态。相比之下，现实世界的部署本质上是动态的，要求agents不断将其知识、技能与行为同变化的环境及更新的任务条件保持一致。为弥补这一空白，我们引入了EvoArena，这是一个基准测试套件，将环境变化建模为跨越终端、软件和社会领域的渐进式更新序列。我们进一步提出了EvoMem，这是一种基于补丁的记忆范式，将记忆演化记录为结构化的更新历史，使agents能够通过记忆的变化来推理环境的演化。实验表明，当前的agents在EvoArena上面临挑战，在演化的终端、软件和社会偏好领域取得的平均准确率为39.6%。EvoMem持续提升了性能，在EvoArena上平均提升了1.5%，同时也使GAIA和LoCoMo等标准基准测试的性能分别提升了6.1%和4.8%。超越单个任务，EvoMem在EvoArena上将链级准确率进一步提升了3.7%，在该基准中，成功需要完成一系列连续的、相关的演化子任务。机制分析表明，EvoMem改善了记忆中的证据捕获能力，表明其能更好地保留完整的演化环境状态。我们的结果强调了在评估和记忆中对演化进行建模对于实现可靠的agent部署的重要性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

在 Discord 上讨论

10 小时前

Jundong Xu Qingchuan Li Jiaying Wu Yihuai Lan Shuyue Stella Li Huichi Zhou Bowen Jiang Lei Wang Jun Wang Anh Tuan Luu

摘要

大型语言模型（LLM）agents在广泛的基准测试中取得了优异的性能，然而大多数评估均假设环境为静态。相比之下，现实世界的部署本质上是动态的，要求agents不断将其知识、技能与行为同变化的环境及更新的任务条件保持一致。为弥补这一空白，我们引入了EvoArena，这是一个基准测试套件，将环境变化建模为跨越终端、软件和社会领域的渐进式更新序列。我们进一步提出了EvoMem，这是一种基于补丁的记忆范式，将记忆演化记录为结构化的更新历史，使agents能够通过记忆的变化来推理环境的演化。实验表明，当前的agents在EvoArena上面临挑战，在演化的终端、软件和社会偏好领域取得的平均准确率为39.6%。EvoMem持续提升了性能，在EvoArena上平均提升了1.5%，同时也使GAIA和LoCoMo等标准基准测试的性能分别提升了6.1%和4.8%。超越单个任务，EvoMem在EvoArena上将链级准确率进一步提升了3.7%，在该基准中，成功需要完成一系列连续的、相关的演化子任务。机制分析表明，EvoMem改善了记忆中的证据捕获能力，表明其能更好地保留完整的演化环境状态。我们的结果强调了在评估和记忆中对演化进行建模对于实现可靠的agent部署的重要性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供