VAPO：高效可靠的强化学习，适用于高级推理任务

Yu Yue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du,Xiangpeng Wei, Xiangyu Yu, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan

发布日期: 5/8/2025

摘要

我们提出了基于价值的增强近端策略优化框架（VAPO），用于推理模型。这是一个专为基于价值范式的推理模型量身定制的全新框架。基于 Qwen 32B 预训练模型构建的 VAPO 在 AIME 2024 数据集上取得了60.4的最佳成绩。

查看论文详情