摘要

大型推理模型已展现出强大的问题求解能力，但在现实任务中，往往需要调用外部工具并进行长时间跨度的交互。现有的智能体框架通常遵循预设的工作流程，这限制了其自主性和全局任务完成能力。本文提出 DeepAgent——一种端到端的深度推理智能体，能够在单一连贯的推理过程中实现自主思考、工具发现与动作执行。为应对长期交互带来的挑战，特别是多次工具调用导致的上下文长度爆炸以及交互历史的累积问题，我们引入了一种自主记忆折叠机制，将过往交互信息压缩为结构化的情景记忆、工作记忆和工具记忆，有效降低错误累积，同时保留关键信息。为实现通用工具使用的高效且稳定训练，我们设计了一种端到端的强化学习策略——ToolPO，该方法利用大语言模型模拟的API接口，并通过工具调用优势归因机制，对工具调用的token进行细粒度的信用分配。在八个基准测试上的大量实验表明，DeepAgent在包括通用工具使用任务（ToolBench、API-Bank、TMDB、Spotify、ToolHop）和下游应用（ALFWorld、WebShop、GAIA、HLE）在内的多种场景中，无论是在有标签工具检索还是开放集工具检索任务中，均持续优于现有基线方法。本工作朝着构建更通用、更强大的真实世界应用智能体迈出了重要一步。代码与演示地址见：https://github.com/RUC-NLPIR/DeepAgent。

源 PDF 查看代码