
要約
大規模言語モデル(LLMs)は、検証可能報酬を用いた強化学習(RLVR)により、複雑な推論タスクの解決において顕著な進展を遂げている。この進展は、信頼性の高い検証者(verifier)による自動化された監視に大きく依存している。しかし、現行の結果ベース検証者(OVs)は、長大な思考過程(CoTs)における信頼性の低い中間ステップを検査することができない。一方、プロセスベース検証者(PVs)は、人間によるアノテーションのコストが極めて高いため、高品質なアノテーションデータの不足に起因する制約により、複雑な長大なCoTsにおける誤りを確実に検出することができない。こうした課題に対応して、本研究では、長大なCoTsから要約された結果の推論プロセスを検証することを目的とした「結果ベースプロセス検証者(OPV)」を提案する。OPVは、正確かつ効率的な検証を実現するとともに、大規模なアノテーションを可能にする。提案する検証者を強化するため、専門家によるアノテーションを活用した反復的アクティブラーニングフレームワークを採用し、少ないアノテーションコストでOPVの検証能力を段階的に向上させる。具体的には、各反復において、現在の最良OPVが最も不確実と判断したケースをアノテーションし、その後、拒否微調整(RFT)およびRLVRを用いて新たなOPVを訓練し、次のラウンドへと進む。広範な実験により、OPVの優れた性能と広範な適用可能性が実証された。OPVは、独自に構築したOPV-Benchにおいて、より大きなオープンソースモデル(例:Qwen3-Max-Preview)を上回る新たなSOTA(状態最良)成績を達成し、F1スコア83.1を記録したのに対し、対象モデルは76.3にとどまった。さらに、合成データセット内における誤検出(偽陽性)の検出においても、OPVは専門家評価と高い整合性を示した。ポリシーモデルとの連携においても、OPVは一貫して性能向上をもたらし、例えば、AIME2025におけるDeepSeek-R1-Distill-Qwen-32Bの精度を、計算リソースの増加に伴い、55.2%から73.3%まで向上させた。