Command Palette

Search for a command to run...

2 个月前

PVPO:面向智能体推理的预估价值策略优化

Wenfeng Feng Penghong Zhao Guochao Jiang Chuzhan Hao Yuewei Zhang Hao Wang

PVPO:面向智能体推理的预估价值策略优化

摘要

无需评判器(critic-free)的强化学习方法,尤其是群体策略(group policies)类方法,因其在复杂任务中的高效性而受到广泛关注。然而,这类方法高度依赖策略内部的多次采样与比较来估计优势(advantage),这可能导致策略陷入局部最优,并显著增加计算开销。为解决上述问题,我们提出了一种名为PVPO的高效强化学习方法,该方法通过引入优势参考锚点(advantage reference anchor)与数据预采样机制进行增强。具体而言,我们预先使用参考模型进行轨迹 rollout,并将计算得到的奖励得分作为参考锚点。该方法能够有效校正组内比较所引入的累积偏差,显著降低对 rollout 次数的依赖。同时,在数据预采样阶段,参考模型可评估样本的难易程度,从而实现对高收益样本的有效筛选,进一步提升训练效率。在两个领域共九个数据集上的实验表明,PVPO达到了当前最优(State-of-the-Art, SOTA)性能。本方法不仅在多种任务上展现出强大的泛化能力,还在不同规模模型间表现出良好的可扩展性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PVPO:面向智能体推理的预估价值策略优化 | 论文 | HyperAI超神经