Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

摘要
过程奖励模型(Process Reward Models, PRMs)提供细粒度的逐步骤反馈,在强化学习中展现出巨大潜力,但其广泛应用仍受限于对昂贵的逐步骤标注或真实参考答案的依赖。为此,我们提出SPARK:一种三阶段框架。在第一阶段,生成模型生成多样化的解题路径,验证模型则通过并行扩展(自洽性)与串行扩展(元批判)对这些解题过程进行评估。第二阶段,我们利用验证结果作为合成训练数据,对生成式过程奖励模型进行微调,使其在后续训练中作为奖励信号。实验表明,通过在步骤层面聚合多个独立验证结果所构建的训练数据,能够显著超越基于真实结果的监督方式。在数学推理中识别错误步骤的基准测试ProcessBench上,该方法取得67.5的F1分数,优于参考引导训练(66.4)和GPT-4o(61.9)。在第三阶段,我们将具备思维链验证能力的生成式PRM(PRM-CoT)作为强化学习中的奖励模型,并引入格式约束以防止奖励欺骗(reward hacking)。基于Qwen2.5-Math-7B模型,在六个数学推理基准上实现平均准确率47.4%,超越基于真实答案的RLVR方法(43.9%)。本研究实现了无需参考答案的强化学习训练,且性能优于传统基于真实答案的方法,为缺乏可验证答案或难以获取真实参考的领域开辟了新的可能性。