
要約
大規模言語モデル(LLMs)は、検証可能な報酬を用いた強化学習(RLVR)によって、複雑な推論タスクの解決において顕著な進展を遂げている。この進展は、信頼性の高い検証者(verifier)による自動化された監視に大きく依存している。しかし、現在の結果ベースの検証者(OVs)は、長大な思考過程(CoT)における信頼性の低い中間ステップを検査することができない。一方、プロセスベースの検証者(PVs)は、人間によるアノテーションのコストが高いため、高品質なアノテーションデータの不足に起因して、複雑な長大なCoTにおける誤りを信頼性高く検出する困難に直面している。この課題を解決するために、本研究では「結果ベースのプロセス検証者(OPV)」を提案する。OPVは、長大なCoTから要約された結果の推論プロセスを検証することで、正確かつ効率的な検証を実現し、大規模なアノテーションを可能にする。提案するOPVの能力を強化するため、専門家によるアノテーションを用いた反復的アクティブラーニングフレームワークを採用し、少ないアノテーションコストでOPVの検証能力を段階的に向上させる。具体的には、各反復において、現在の最良のOPVが最も不確実と判断したケースを専門家がアノテートし、その後、そのデータを用いて「拒否微調整(RFT)」とRLVRを組み合わせて新たなOPVを訓練し、次のラウンドへと進む。広範な実験により、OPVの優れた性能と広範な適用可能性が実証された。OPVは、保有したテストセット「hisbench」において、より大きなオープンソースモデル(例:Qwen3-Max-Preview)を上回る新たなSOTA(状態最良)を達成し、F1スコア83.1を記録したのに対し、対象モデルは76.3にとどまった。さらに、合成データセット内における誤検出(ファルスポジティブ)を効果的に検出でき、専門家の評価と高い整合性を示した。ポリシーモデルと連携する場合、OPVは一貫して性能向上をもたらすことが確認された。例えば、AIME2025でのDeepSeek-R1-Distill-Qwen-32Bの正解率は、計算リソースの増加に伴い、55.2%から73.3%まで向上した。