HyperAIHyperAI

Command Palette

Search for a command to run...

オリンピックレベルの数学問題解決のための長期予測推論エージェント

概要

大規模言語モデル(LLMs)は、検証可能報酬を用いた強化学習(RLVR)により、複雑な推論タスクの解決において顕著な進展を遂げている。この進展は、信頼性の高い検証者(verifier)による自動化された検証体制の整備と密接に結びついている。しかし、現行の結果ベース検証者(OVs)は、長大な思考過程(CoT)における信頼性の低い中間ステップを検査することができない。一方、プロセスベース検証者(PVs)は、人間によるアノテーションのコストが極めて高いため、高品質なアノテーションデータの不足に起因する制約により、複雑な長大なCoTにおける誤りを確実に検出することができない。こうした課題に対応して、本研究では、長大なCoTから要約された結果の推論プロセスを検証することを目的とした「結果ベースプロセス検証者(OPV)」を提案する。OPVは、正確かつ効率的な検証を実現するとともに、大規模なアノテーションを可能にする。提案する検証者を強化するため、専門家によるアノテーションを活用した反復的アクティブラーニングフレームワークを採用し、少ないアノテーションコストでOPVの検証能力を段階的に向上させる。具体的には、各反復において、現在の最良のOPVが最も不確実と判断したケースをアノテーションし、その後、拒否微調整(RFT)およびRLVRを用いて新たなOPVを訓練し、次のラウンドへと進む。広範な実験により、OPVの優れた性能と広範な適用可能性が実証された。OPVは、保有したテストセット「hisbench」において、より大きなオープンソースモデル(例:Qwen3-Max-Preview)を上回る新たなSOTA(最先端)成績を達成し、F1スコア83.1を記録したのに対し、対象モデルは76.3にとどまった。さらに、合成データセット内における誤検出(偽陽性)の検出においてもOPVは優れた性能を発揮し、専門家による評価と高い整合性を示した。ポリシーモデルとの連携においても、OPVは一貫して性能向上をもたらし、例えば、AIME2025においてDeepSeek-R1-Distill-Qwen-32Bの精度を、計算リソースの増加に伴い55.2%から73.3%まで向上させた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています