HyperAIHyperAI

Command Palette

Search for a command to run...

Console
1日前

オリンピックレベルの数学問題解決のための長期予測推論エージェント

オリンピックレベルの数学問題解決のための長期予測推論エージェント

要約

大規模言語モデル(LLMs)は、検証可能な報酬を用いた強化学習(RLVR)によって、複雑な推論タスクの解決において顕著な進展を遂げている。この進展は、信頼性の高い検証者(verifier)による自動化された監視に大きく依存している。しかし、現在の結果ベースの検証者(OVs)は、長大な思考過程(CoT)における信頼性の低い中間ステップを検査することができない。一方、プロセスベースの検証者(PVs)は、人間によるアノテーションのコストが高いため、高品質なアノテーションデータの不足に起因して、複雑な長大なCoTにおける誤りを信頼性高く検出する困難に直面している。この課題を解決するために、本研究では「結果ベースのプロセス検証者(OPV)」を提案する。OPVは、長大なCoTから要約された結果の推論プロセスを検証することで、正確かつ効率的な検証を実現し、大規模なアノテーションを可能にする。提案するOPVの能力を強化するため、専門家によるアノテーションを用いた反復的アクティブラーニングフレームワークを採用し、少ないアノテーションコストでOPVの検証能力を段階的に向上させる。具体的には、各反復において、現在の最良のOPVが最も不確実と判断したケースを専門家がアノテートし、その後、そのデータを用いて「拒否微調整(RFT)」とRLVRを組み合わせて新たなOPVを訓練し、次のラウンドへと進む。広範な実験により、OPVの優れた性能と広範な適用可能性が実証された。OPVは、保有したテストセット「hisbench」において、より大きなオープンソースモデル(例:Qwen3-Max-Preview)を上回る新たなSOTA(状態最良)を達成し、F1スコア83.1を記録したのに対し、対象モデルは76.3にとどまった。さらに、合成データセット内における誤検出(ファルスポジティブ)を効果的に検出でき、専門家の評価と高い整合性を示した。ポリシーモデルと連携する場合、OPVは一貫して性能向上をもたらすことが確認された。例えば、AIME2025でのDeepSeek-R1-Distill-Qwen-32Bの正解率は、計算リソースの増加に伴い、55.2%から73.3%まで向上した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています