11 天前
超越十轮:基于大规模异步强化学习的长周期智能体搜索
Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

摘要
近年来,基于大语言模型(LLM)的智能体在整合外部工具的基础上,展现出处理复杂、知识密集型任务的卓越能力。在众多可选工具中,搜索工具在获取海量外部知识方面发挥着关键作用。然而,当前开源智能体在实现专家级“搜索智能”方面仍存在明显不足,具体表现为难以有效解析模糊查询、生成精准搜索指令、分析搜索结果并开展深入探索。现有方法在可扩展性、训练效率和数据质量方面均存在局限。例如,现有在线强化学习(RL)方法通常设置较小的回合限制(如 ≤10),严重制约了复杂策略的学习能力。本文提出 ASearcher,一个面向大规模强化学习训练搜索智能体的开源项目。我们的主要贡献包括:(1)可扩展的全异步强化学习训练框架,能够在保持高训练效率的同时支持长时程搜索任务;(2)一种基于提示(prompt-based)的LLM智能体,可自主生成高质量且具有挑战性的问答对(QAs),从而构建大规模问答数据集。通过强化学习训练,我们提出的基于提示的 QwQ-32B 智能体在 xBench 和 GAIA 两个基准上分别取得了 46.7% 和 20.8% 的 Avg@4 分数提升。值得注意的是,该智能体展现出极强的长时程搜索能力,在训练过程中工具调用次数超过 40 轮,输出 token 数量超过 15 万。在采用简洁智能体设计且无需依赖外部大模型的前提下,ASearcher-Web-QwQ 在 xBench 上达到 Avg@4 42.1 分,在 GAIA 上达到 52.8 分,显著超越现有开源 32B 模型。我们已将模型、训练数据及代码开源,详见 https://github.com/inclusionAI/ASearcher。