
摘要
大规模语言模型(LLMs)在通过可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)解决复杂推理任务方面取得了显著进展。这一进步也离不开由可靠验证器实现的自动化监督机制。然而,当前基于结果的验证器(Outcome-based Verifiers, OVs)无法有效检查长链思维(Chain-of-Thought, CoT)中不可靠的中间推理步骤。与此同时,基于过程的验证器(Process-based Verifiers, PVs)在检测复杂长CoT中的错误时仍面临挑战,其性能受限于高质量标注数据的稀缺性——这主要源于人工标注所带来高昂的成本。为此,我们提出了一种新型验证机制:基于结果的过程验证器(Outcome-based Process Verifier, OPV)。OPV通过验证从长CoT中提炼出的总结性结果的推理过程,实现了高精度与高效率的验证能力,同时支持大规模标注的可扩展性。为提升OPV的验证性能,我们设计了一种基于专家标注的迭代式主动学习框架,以在显著降低标注成本的前提下持续优化验证能力。具体而言,在每一轮迭代中,当前最优OPV最不确定的样本将由专家进行标注,随后利用这些标注数据,通过拒绝微调(Rejection Fine-Tuning, RFT)与RLVR联合训练,生成下一轮的OPV。大量实验验证了OPV的卓越性能与广泛适用性。在我们自建的OPV-Bench测试集上,OPV取得了新的最先进(SOTA)结果,F1分数达到83.1,显著优于参数量远大于其的开源模型Qwen3-Max-Preview(F1为76.3)。此外,OPV在合成数据集上能有效识别虚假正例,其检测结果与专家评估高度一致。当与策略模型协同使用时,OPV持续带来性能提升:例如,在AIME2025基准上,其将DeepSeek-R1-Distill-Qwen-32B的准确率从55.2%提升至73.3%,且随着计算资源的增加,性能增益更加显著。