HyperAIHyperAI

Command Palette

Search for a command to run...

階層的な予算ポリシー最適化による適応的推論

Shangke Lyu Linjuan Wu Yuchen Yan Xingyu Wu Hao Li Yongliang Shen Peisheng Jiang Weiming Lu Jun Xiao Yueting Zhuang

概要

大規模な推論モデルは、広範な思考プロセスを生成することで優れた性能を達成しますが、問題の複雑さに関係なく一貫した推論戦略を適用するため、計算効率が著しく低下しています。本研究では、問題に応じた推論の深さを学習できる強化学習フレームワーク「階層的予算ポリシー最適化(Hierarchical Budget Policy Optimization、HBPO)」を提案します。HBPOは、モデルの能力を損なうことなく、問題固有の推論深さを学習できるようにします。HBPOは、効率志向のトレーニングにおける探索空間の縮小という基本的な課題に対処し、長出力長に対するペナルティがモデルを必要となる長時間の推論経路から系統的に遠ざけることを防止します。階層的な予算探索を通じて、本手法はロールアウトサンプルを複数のサブグループに分割し、それぞれ異なるトークン予算を設定することで、効率的なリソース配分を実現し、モデルの能力の低下を防ぎます。また、問題の複雑さに応じた予算に敏感な報酬メカニズムを導入し、タスクの要件と計算負荷の自然な対応関係をモデルが発見できるようにします。膨大な実験により、HBPOは4つの推論ベンチマークにおいて平均トークン使用量を最大60.6%削減しながら、精度を3.14%向上させることを示しました。既存の方法が外部的な制約を課すか、離散的なモード選択に依存するのに対し、HBPOは問題の複雑さに応じて推論深さを自動的に調整するような自己組織的な適応行動を示します。これらの結果から、推論の効率と能力は本質的に矛盾するものではなく、適切に構成された階層的なトレーニングにより、両方を同時に最適化することが可能であることが示唆されます。(Hierarchical Budget Policy Optimization、HBPO)


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています