HyperAI超神经

VAPO:高效可靠的强化学习,适用于高级推理任务

Yu Yue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du,Xiangpeng Wei, Xiangyu Yu, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
发布日期: 5/8/2025
VAPO:高效可靠的强化学习,适用于高级推理任务
摘要

我们提出了基于价值的增强近端策略优化框架(VAPO),用于推理模型。这是一个专为基于价值范式的推理模型量身定制的全新框架。基于 Qwen 32B 预训练模型构建的 VAPO 在 AIME 2024 数据集上取得了60.4的最佳成绩。