Command Palette
Search for a command to run...
Wenfeng Feng Penghong Zhao Guochao Jiang Chuzhan Hao Yuewei Zhang Hao Wang

摘要
无需评判器(critic-free)的强化学习方法,尤其是群体策略(group policies)类方法,因其在复杂任务中的高效性而受到广泛关注。然而,这类方法高度依赖策略内部的多次采样与比较来估计优势(advantage),这可能导致策略陷入局部最优,并显著增加计算开销。为解决上述问题,我们提出了一种名为PVPO的高效强化学习方法,该方法通过引入优势参考锚点(advantage reference anchor)与数据预采样机制进行增强。具体而言,我们预先使用参考模型进行轨迹 rollout,并将计算得到的奖励得分作为参考锚点。该方法能够有效校正组内比较所引入的累积偏差,显著降低对 rollout 次数的依赖。同时,在数据预采样阶段,参考模型可评估样本的难易程度,从而实现对高收益样本的有效筛选,进一步提升训练效率。在两个领域共九个数据集上的实验表明,PVPO达到了当前最优(State-of-the-Art, SOTA)性能。本方法不仅在多种任务上展现出强大的泛化能力,还在不同规模模型间表现出良好的可扩展性。