HyperAI超神经

摘要

大规模语言模型（LLMs）在通过可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）解决复杂推理任务方面取得了显著进展。这一进步也离不开可靠验证器所实现的自动化监督机制。然而，当前基于结果的验证器（Outcome-based Verifiers, OVs）难以有效审查长链思维（Chain-of-Thought, CoT）中不可靠的中间推理步骤；与此同时，基于过程的验证器（Process-based Verifiers, PVs）在复杂且冗长的CoT中可靠检测错误方面仍面临挑战，其主要受限于高质量标注数据的稀缺性——由于人工标注成本高昂，难以获取足够规模的优质标注。为此，本文提出一种新型验证框架——基于结果的过程验证器（Outcome-based Process Verifier, OPV），该方法通过对长CoT所生成的摘要化结果进行推理过程验证，实现了高效且准确的验证能力，并支持大规模自动化标注。为提升OPV的验证性能，我们引入一种迭代式主动学习框架，结合专家标注，以较低的标注成本持续优化验证能力。具体而言，在每一轮迭代中，当前最优OPV预测中最不确定的样本由专家进行标注，随后利用这些标注数据通过拒绝微调（Rejection Fine-Tuning, RFT）与RLVR联合训练，生成下一轮的OPV模型。大量实验表明，OPV在性能与适用性方面均表现出显著优势。在我们预留的hisbench基准测试中，OPV取得了新的最先进水平，其F1分数达到83.1，显著优于更大规模的开源模型（如Qwen3-Max-Preview的76.3）。此外，OPV在合成数据集中能有效识别虚假正例，其判断结果与专家评估高度一致。当与策略模型协同使用时，OPV持续带来性能提升：例如，在AIME2025基准上，随着计算资源的增加，其将DeepSeek-R1-Distill-Qwen-32B的准确率从55.2%提升至73.3%。

摘要

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

摘要

用 AI 构建 AI

HyperAI Newsletters

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

摘要

用 AI 构建 AI

HyperAI Newsletters

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

面向奥数级数学问题求解的长时程推理Agent

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao11 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

面向奥数级数学问题求解的长时程推理Agent

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao11 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

面向奥数级数学问题求解的长时程推理Agent

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao11 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao