HyperAIHyperAI

Command Palette

Search for a command to run...

エージェント型強化政策最適化

概要

大規模な検証可能な報酬を用いた強化学習(RLVR)は、単一ステップの推論タスクにおける大規模言語モデル(LLM)の潜在能力を活用する上でその有効性を示しています。現実的な推論シナリオにおいて、LLMはしばしば外部ツールを活用してタスク解決プロセスを補助します。しかし、現在の強化学習(RL)アルゴリズムは、モデルの内在的な長期推論能力と、マルチターンのツール操作における習熟度のバランスを十分に取れていないのが現状です。このギャップを埋めるために、我々は「エージェント型強化ポリシー最適化(ARPO)」を提案します。これは、マルチターンのLLMベースエージェントを訓練するための新しいエージェント型強化学習アルゴリズムです。初期実験において、LLMが外部ツールと相互作用した直後に生成トークンのエントロピー分布が増加し、動作が非常に不確実になる傾向があることが観察されました。この観察をもとに、ARPOはエントロピーに基づく適応的なロールアウトメカニズムを導入し、全体的な軌跡サンプリングとステップレベルのサンプリングを動的にバランスさせることで、ツール使用後の高不確実性ステップでの探索を促進します。また、アドバンテージの属性推定を統合することで、ARPOはLLMがステップ単位でのツール使用におけるアドバンテージの違いを内面化できるようにしています。計算推論、知識推論、深層検索の分野における13の困難なベンチマークでの実験結果から、ARPOが軌跡レベルの強化学習アルゴリズムよりも優れた性能を示すことが確認されました。特に注目すべきは、既存の方法に必要なツール使用予算の半分でARPOが性能向上を達成できることです。これは、リアルタイムの動的環境に適合させるLLMベースエージェントに対するスケーラブルなソリューションを提供します。本研究のコードとデータセットは、https://github.com/dongguanting/ARPO で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています