Command Palette
Search for a command to run...
Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

摘要
在多轮交互环境中,使用稀疏奖励训练大型语言模型(LLM)智能体,其中完成单个任务通常需要在每个训练回合中进行30轮以上的交互,这对强化学习构成了根本性挑战。我们识别出该场景下一种独特的关键失败模式:探索-利用级联失效(exploration-exploitation cascade failure)。该级联失效始于早期策略的过早收敛,由于稀疏反馈,智能体过早地锁定在低熵、存在缺陷的策略上;随后进入晚期策略崩溃阶段,此时传统的熵正则化反而产生反效果,促使混乱的探索行为,从而破坏训练的稳定性。为此,我们提出了一种通用框架——熵正则化策略优化(Entropy-regularized Policy Optimization, EPO),通过三种协同作用的机制打破这一失效循环:(1)在多轮设置中引入熵正则化,以增强探索能力;(2)设计一种熵平滑正则化项,将策略熵约束在历史平均值范围内,防止其剧烈波动;(3)采用自适应的分阶段权重机制,在训练过程中动态平衡探索与利用。我们的理论分析表明,EPO能够保证熵方差单调递减的同时维持策略收敛性。在ScienceWorld和ALFWorld基准测试中,EPO分别实现了最高达152%和19.8%的性能提升。本研究证明,在多轮稀疏奖励设置下,LLM智能体训练所需的熵控制机制与传统强化学习存在本质差异,这一发现对LLM智能体的训练具有广泛而深远的影响。