Command Palette

Search for a command to run...

2 个月前

ReSum:通过上下文摘要解锁长时程搜索智能

ReSum:通过上下文摘要解锁长时程搜索智能

摘要

基于大语言模型(LLM)的网络代理在知识密集型任务中表现出色,但在诸如ReAct等范式下受限于上下文窗口的容量。涉及多个实体、复杂关联关系以及高不确定性的复杂查询,通常需要大量搜索循环才能逐步求解,然而这些过程会迅速耗尽上下文预算,难以达到完整答案。为应对这一挑战,我们提出ReSum——一种新型范式,通过周期性地进行上下文摘要,实现无限探索。ReSum将不断增长的交互历史压缩为紧凑的推理状态,在保留先前发现认知的同时,有效规避了上下文长度的限制。针对范式适配,我们进一步提出ReSum-GRPO,该方法结合GRPO(Generalized Reward Policy Optimization)与分段轨迹训练及优势广播机制,使代理能够适应基于摘要条件的推理模式。在三个基准测试中,对不同规模的网络代理进行的大量实验表明,ReSum相较于ReAct平均提升4.5%的绝对性能,而经过ReSum-GRPO训练后,性能进一步提升最高达8.2%。值得注意的是,仅使用1K训练样本,我们的WebResummer-30B(基于ReSum-GRPO训练的WebSailor-30B版本)在BrowseComp-zh上达到33.3%的Pass@1指标,在BrowseComp-en上达到18.3%,超越了现有开源网络代理的性能表现。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供