Command Palette

Search for a command to run...

16 天前

代理熵平衡策略优化

代理熵平衡策略优化

摘要

近期,代理强化学习(Agentic Reinforcement Learning, Agentic RL)在激励网络代理实现多轮、长时程工具使用能力方面取得了显著进展。然而,主流的代理强化学习算法在熵(entropy)的引导下自主探索高不确定性工具调用步骤时,过度依赖熵信号可能导致额外约束,进而引发训练崩溃问题。本文深入探讨了熵带来的挑战,提出了一种名为代理熵平衡策略优化(Agentic Entropy-Balanced Policy Optimization, AEPO)的新型代理强化学习算法,旨在平衡策略回放(rollout)与策略更新两个阶段的熵分布。AEPO包含两个核心组件:(1)动态熵平衡回放机制,通过熵预监控自适应分配全局与分支采样预算,并对连续高熵工具调用步骤施加分支惩罚,以防止过度分支问题;(2)熵平衡策略优化(Entropy-Balanced Policy Optimization),在高熵裁剪项中引入停止梯度(stop-gradient)操作,以保留并正确重缩放高熵标记处的梯度,同时结合感知熵的优势估计方法,优先聚焦于高不确定性标记的学习。在14个具有挑战性的数据集上的实验结果表明,AEPO在性能上持续优于7种主流强化学习算法。仅使用1K次强化学习采样样本,搭载AEPO的Qwen3-14B模型即取得了令人瞩目的表现:在GAIA数据集上达到47.6%的Pass@1准确率,Humanity's Last Exam上为11.2%,WebWalker上为43.0%;在Pass@5指标下,GAIA为65.0%,Humanity's Last Exam为26.0%,WebWalker为70.0%。进一步分析表明,AEPO在提升回放采样多样性的同时,保持了策略熵的稳定性,从而有效支持可扩展的网络代理训练。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供