
摘要
大规模语言模型(LLMs)在通过可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)解决复杂推理任务方面取得了显著进展。这一进步也离不开由可靠验证器实现的自动化监督机制。然而,当前基于结果的验证器(Outcome-based Verifiers, OVs)无法有效检查长链思维(Chain-of-Thought, CoT)中不可靠的中间推理步骤。与此同时,基于过程的验证器(Process-based Verifiers, PVs)在复杂且冗长的CoT中可靠检测错误方面仍面临挑战,其主要受限于高质量标注数据的稀缺性——由于人工标注成本过高,难以获取足够规模的优质标注。为此,本文提出一种新型验证器——基于结果的过程验证器(Outcome-based Process Verifier, OPV)。OPV通过对长CoT所生成的摘要化结果进行推理过程验证,在保证高准确性的同时实现高效验证,并支持大规模自动标注。为提升OPV的验证能力,我们引入一种迭代式主动学习框架,结合专家标注,以较低的标注成本持续优化验证性能。具体而言,在每一轮迭代中,当前最优OPV预测中最不确定的样本由专家进行标注,随后利用这些标注数据通过拒绝微调(Rejection Fine-Tuning, RFT)与RLVR联合训练,生成下一轮的OPV模型。大量实验表明,OPV在性能与适用性方面均表现出显著优势。在我们预留的hisbench基准测试中,OPV取得了新的最先进水平,其F1分数达到83.1,显著优于参数量远大于它的开源模型Qwen3-Max-Preview(F1为76.3)。此外,OPV在合成数据集上能有效识别虚假正例,其检测结果与专家评估高度一致。当与策略模型协同使用时,OPV持续带来性能提升:例如,在AIME2025基准上,随着计算预算的增加,其将DeepSeek-R1-Distill-Qwen-32B的准确率从55.2%提升至73.3%。