HyperAI超神经
5 days ago

ReasonFlux-PRM:轨迹感知的PRM用于LLM中的长链推理

Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
ReasonFlux-PRM:轨迹感知的PRM用于LLM中的长链推理
摘要

过程奖励模型(PRMs)最近作为一种强大的框架,用于监督大型语言模型(LLMs)中的中间推理步骤。以往的PRMs主要基于模型的最终输出进行训练,在评估前沿推理模型(如Deepseek-R1)生成的轨迹-响应输出时,难以稳健地评价中间思考路径。在本研究中,我们引入了一种新的轨迹感知PRM——ReasonFlux-PRM,该模型专门设计用于评估轨迹-响应类型的推理痕迹。ReasonFlux-PRM结合了步骤级和轨迹级的监督,实现了与结构化思维链数据对齐的细粒度奖励分配。我们对ReasonFlux-PRM进行了适应性改进,以支持离线和在线设置下的奖励监督,包括:(i) 选择高质量的模型蒸馏数据,用于下游较小模型的有监督微调;(ii) 在强化学习过程中提供密集的过程级奖励,以优化策略;(iii) 实现基于奖励的最佳N个测试时间扩展。在AIME、MATH500和GPQA-Diamond等具有挑战性的下游基准测试中的实证结果表明,ReasonFlux-PRM-7B比强大的PRMs(例如Qwen2.5-Math-PRM-72B)和人工策划的基线方法选择了更高质的数据。此外,我们的ReasonFlux-PRM-7B在性能上表现出一致的提升,在有监督微调中平均提高了12.1%,在强化学习中平均提高了4.5%,在测试时间扩展中平均提高了6.3%。我们还发布了高效的ReasonFlux-PRM-1.5B版本,适用于资源受限的应用和边缘部署。项目地址:https://github.com/Gen-Verse/ReasonFlux