Command Palette

Search for a command to run...

22日前

R-Horizon:大規模な推論モデルの広がりと深さにおける到達可能範囲はどこまでか?

Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

R-Horizon:大規模な推論モデルの広がりと深さにおける到達可能範囲はどこまでか?

要約

最近、推論モデル(例:OpenAI o1、DeepSeek-R1)におけるテスト時スケーリングの動向により、長時間のチェーン・オブ・シンキング(CoT)を活用した著しい性能向上が達成されている。しかし、既存のベンチマークは主に即時的で単一の時間スケール(単一ホライズン)のタスクに焦点を当てており、複雑で長期的なホライズンにわたる状況におけるモデルの理解力や対応能力を十分に評価できていない。大規模推論モデル(LRM)の評価が不十分である点に着目し、本研究では、クエリの構成を通じてLRMに長期的推論行動を促す手法「R-HORIZON」を提案する。R-HORIZONを基盤として、複数ステップにわたる相互依存的な問題を含み、長期にわたる推論ホライズンをカバーする複雑な推論タスクから構成される、長期的推論を評価するためのベンチマークを構築した。R-HORIZONベンチマークを用いた包括的な評価により、最も先進的なLRMであっても、性能が著しく低下することが明らかになった。分析の結果、LRMは有効な推論長が限定的であり、複数の問題にわたり思考リソース(thinking budget)を適切に配分する能力に欠けていることが示された。これらの限界を認識した上で、R-HORIZONを活用して、検証済み報酬を用いた強化学習(RLVR)のための長期的推論データを構築した。単一ホライズンデータによる学習と比較して、R-HORIZONを用いたRLVRは、多ホライズン推論タスクにおいて顕著な性能向上をもたらすだけでなく、標準的な推論タスクの精度にも寄与し、AIME2024スコアで7.5ポイントの向上を達成した。これらの結果から、R-HORIZONは、LRMの長期的推論能力を強化および評価するためのスケーラブルで制御可能かつ低コストな枠組みとして、重要な位置を占めると考えられる。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
R-Horizon:大規模な推論モデルの広がりと深さにおける到達可能範囲はどこまでか? | 論文 | HyperAI超神経