HyperAI超神経

概要

大規模言語モデル（LLMs）は、検証可能報酬を用いた強化学習（RLVR）により、複雑な推論タスクの解決において顕著な進展を遂げている。この進展は、信頼性の高い検証者（verifier）による自動化された検証体制の整備と密接に結びついている。しかし、現行の結果ベース検証者（OVs）は、長大な思考過程（CoT）における信頼性の低い中間ステップを検査することができない。一方、プロセスベース検証者（PVs）は、人間によるアノテーションのコストが極めて高いため、高品質なアノテーションデータの不足に起因する制約により、複雑な長大なCoTにおける誤りを確実に検出することができない。こうした課題に対応して、本研究では、長大なCoTから要約された結果の推論プロセスを検証することを目的とした「結果ベースプロセス検証者（OPV）」を提案する。OPVは、正確かつ効率的な検証を実現するとともに、大規模なアノテーションを可能にする。提案する検証者を強化するため、専門家によるアノテーションを活用した反復的アクティブラーニングフレームワークを採用し、少ないアノテーションコストでOPVの検証能力を段階的に向上させる。具体的には、各反復において、現在の最良のOPVが最も不確実と判断したケースをアノテーションし、その後、拒否微調整（RFT）およびRLVRを用いて新たなOPVを訓練し、次のラウンドへと進む。広範な実験により、OPVの優れた性能と広範な適用可能性が実証された。OPVは、保有したテストセット「hisbench」において、より大きなオープンソースモデル（例：Qwen3-Max-Preview）を上回る新たなSOTA（最先端）成績を達成し、F1スコア83.1を記録したのに対し、対象モデルは76.3にとどまった。さらに、合成データセット内における誤検出（偽陽性）の検出においてもOPVは優れた性能を発揮し、専門家による評価と高い整合性を示した。ポリシーモデルとの連携においても、OPVは一貫して性能向上をもたらし、例えば、AIME2025においてDeepSeek-R1-Distill-Qwen-32Bの精度を、計算リソースの増加に伴い55.2％から73.3％まで向上させた。

概要

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

概要

AIでAIを構築

HyperAI Newsletters

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

概要

AIでAIを構築

HyperAI Newsletters

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

オリンピックレベルの数学問題解決のための長期予測推論エージェント

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao11 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

オリンピックレベルの数学問題解決のための長期予測推論エージェント

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao11 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

オリンピックレベルの数学問題解決のための長期予測推論エージェント

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao11 more

概要

AIでAIを構築

HyperAI Newsletters

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao

Songyang Gao Yuzhe Gu Zijian Wu Lingkai Kong Wenwei Zhang Zhongrui Cai Fan Zheng Tianyou Ma Junhao Shen Haiteng Zhao