2 个月前

ReSum：通过上下文摘要解锁长时程搜索智能

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang

摘要

基于大语言模型（LLM）的网络代理在知识密集型任务中表现出色，但在诸如ReAct等范式下受限于上下文窗口的容量。涉及多个实体、复杂关联关系以及高不确定性的复杂查询，通常需要大量搜索循环才能逐步求解，然而这些过程会迅速耗尽上下文预算，难以达到完整答案。为应对这一挑战，我们提出ReSum——一种新型范式，通过周期性地进行上下文摘要，实现无限探索。ReSum将不断增长的交互历史压缩为紧凑的推理状态，在保留先前发现认知的同时，有效规避了上下文长度的限制。针对范式适配，我们进一步提出ReSum-GRPO，该方法结合GRPO（Generalized Reward Policy Optimization）与分段轨迹训练及优势广播机制，使代理能够适应基于摘要条件的推理模式。在三个基准测试中，对不同规模的网络代理进行的大量实验表明，ReSum相较于ReAct平均提升4.5%的绝对性能，而经过ReSum-GRPO训练后，性能进一步提升最高达8.2%。值得注意的是，仅使用1K训练样本，我们的WebResummer-30B（基于ReSum-GRPO训练的WebSailor-30B版本）在BrowseComp-zh上达到33.3%的Pass@1指标，在BrowseComp-en上达到18.3%，超越了现有开源网络代理的性能表现。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

ReSum：通过上下文摘要解锁长时程搜索智能

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang4 more

摘要

用 AI 构建 AI

Hyper Newsletters

Xixi Wu Kuan Li Yida Zhao Liwen Zhang Litu Ou Huifeng Yin Zhongwang Zhang Yong Jiang Pengjun Xie Fei Huang