1ヶ月前

LLMエージェント強化学習のための木探索

Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

要約

強化学習（RL）の最近の進展により、大規模言語モデル（LLM）のエージェント機能が著しく向上している。長期的かつ多ターンにわたるエージェントタスクにおいて、成果報酬のみに依存する従来のアプローチは、しばしば疎な教師信号という問題に直面する。この課題に対処するため、本研究では、木構造探索に基づくグループ化エージェント強化学習手法「Tree-based Group Relative Policy Optimization（Tree-GRPO）」を提案する。Tree-GRPOでは、木の各ノードがエージェントの完全な相互作用ステップを表す。共通の接頭語を共有することで、固定されたトークン数またはツール呼び出し回数の予算内で、より多くのロールアウトを実現可能となる。さらに、木構造による軌道表現は、成果報酬のみを用いても、ステップ単位のプロセス教師信号を自然に構築可能であることを発見した。この特性を基に、Tree-GRPOは木内および木間の両レベルでグループ化された相対的優位性を推定する。理論的解析により、木内レベルにおけるグループ化相対方策最適化の目的関数が、ステップレベルの直接的好み学習（direct preference learning）と等価であることを示した。11のデータセットおよび3種類のQAタスクにおける実験により、提案手法である木構造ベースのRLが、チェーン構造ベースのRLに比べて優れた性能を発揮することが確認された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

LLMエージェント強化学習のための木探索

Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

要約

AI で AI を構築

Hyper Newsletters