Command Palette

Search for a command to run...

1ヶ月前

DeepSearch:モンテカルロ木探索を用いた検証可能報酬により強化学習のボトルネックを克服する

Fang Wu Weihao Xuan Heli Qi Ximing Lu Aaron Tu Li Erran Li Yejin ChoiRetry

DeepSearch:モンテカルロ木探索を用いた検証可能報酬により強化学習のボトルネックを克服する

要約

RLVRは、大規模言語モデル(LLM)における高度な推論能力を育成する上で不可欠な要素となっており、近年の研究では、数千回の最適化ステップを経た後に性能向上の plateau(停滞)が生じる現象が報告されている。これは、計算リソースの増加にもかかわらず、性能向上の伸びが顕著に鈍化するという事実を示している。この限界の原因は、現在のRLVR手法に内在する探索パターンの疎らさに起因する。具体的には、モデルが限定的なロールアウト(展開)に依存しており、重要な推論経路を見逃すことが多く、解空間に対する体系的なカバレッジが得られないためである。本研究では、モンテカルロ木探索(MCTS)をRLVRの学習プロセスに直接統合するフレームワーク「DeepSearch」を提案する。既存手法が木探索を推論時のみに利用するのに対し、DeepSearchは構造的な探索を学習ループに組み込み、推論ステップ全体にわたり体系的な探索と細分化された報酬割り当てを可能にする。学習過程における探索の強化により、長期間にわたる学習において性能向上が鈍化する根本的な課題を克服する。本研究の主な貢献は以下の3点である:(1)探索木全体において有望なノードを優先的に選択するグローバルフロンティア選択戦略、(2)エントロピーに基づくガイドラインを用いた選択により、信頼性の高い推論経路を識別し、教師信号として活用する手法、(3)解のキャッシュを活用した適応的リプレイバッファ学習による効率性の向上。数学的推論ベンチマークにおける実験結果から、DeepSearchは平均62.95%の精度を達成し、1.5Bパラメータ規模の推論モデルにおいて新たなSOTA(最先端)を樹立した。さらに、従来の延長学習アプローチに比べてGPU時間は5.7倍も削減された。これらの結果は、単なる計算リソースの増強に頼るのではなく、戦略的な探索の重要性を示しており、アルゴリズムの革新がRLVR手法の進展に寄与する可能性を示している。DeepSearchは、単に計算時間を延長するのではなく、体系的な探索によって推論能力をスケーリングする新たな道筋を提示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DeepSearch:モンテカルロ木探索を用いた検証可能報酬により強化学習のボトルネックを克服する | 論文 | HyperAI超神経