Command Palette
Search for a command to run...

摘要
基于大语言模型(LLM)的网络代理在知识密集型任务中表现出色,但在诸如ReAct等范式下受限于上下文窗口的容量。涉及多个实体、复杂关联关系以及高不确定性的复杂查询,通常需要大量搜索循环才能逐步求解,然而这些过程会迅速耗尽上下文预算,难以达到完整答案。为应对这一挑战,我们提出ReSum——一种新型范式,通过周期性地进行上下文摘要,实现无限探索。ReSum将不断增长的交互历史压缩为紧凑的推理状态,在保留先前发现认知的同时,有效规避了上下文长度的限制。针对范式适配,我们进一步提出ReSum-GRPO,该方法结合GRPO(Generalized Reward Policy Optimization)与分段轨迹训练及优势广播机制,使代理能够适应基于摘要条件的推理模式。在三个基准测试中,对不同规模的网络代理进行的大量实验表明,ReSum相较于ReAct平均提升4.5%的绝对性能,而经过ReSum-GRPO训练后,性能进一步提升最高达8.2%。值得注意的是,仅使用1K训练样本,我们的WebResummer-30B(基于ReSum-GRPO训练的WebSailor-30B版本)在BrowseComp-zh上达到33.3%的Pass@1指标,在BrowseComp-en上达到18.3%,超越了现有开源网络代理的性能表现。