Command Palette

Search for a command to run...

15 天前

IterResearch:通过马尔可夫状态重构重新思考长时域Agent

IterResearch:通过马尔可夫状态重构重新思考长时域Agent

摘要

近年来,深度研究代理(deep-research agents)的进展在通过对外部信息源进行动态推理实现自主知识构建方面展现出巨大潜力。然而,现有方法普遍依赖于单上下文(mono-contextual)范式,将所有信息累积于一个不断扩展的上下文窗口中,导致上下文“窒息”(context suffocation)和噪声污染,严重限制了其在长时程任务中的表现。为此,我们提出IterResearch——一种新型的迭代式深度研究范式,将长时程研究任务重新建模为一个具有策略性工作区重构的马尔可夫决策过程(Markov Decision Process)。通过持续维护一个动态演进的报告作为记忆,并周期性地整合关键洞见,该方法能够在任意探索深度下保持一致的推理能力。我们进一步设计了效率感知策略优化(Efficiency-Aware Policy Optimization, EAPO),一种基于强化学习的框架,通过几何衰减奖励机制激励高效探索,并利用自适应下采样实现稳定且可扩展的分布式训练。大量实验表明,IterResearch在六个基准测试中平均提升14.5个百分点(+14.5pp),显著优于现有开源代理,并大幅缩小了与前沿专有系统之间的性能差距。尤为突出的是,该范式展现出前所未有的交互扩展能力,支持高达2048次交互,性能实现跃升(从3.5%提升至42.5%),并可作为高效的提示策略,使前沿模型在长时程任务上的表现相比ReAct方法最高提升19.2pp。这些成果表明,IterResearch不仅是一种强大的长时程推理解决方案,更兼具作为训练后智能体与前沿模型提示策略的双重优势,具有高度的通用性与应用价值。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供