Command Palette
Search for a command to run...
Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

要約
強化学習(RL)の最近の進展により、大規模言語モデル(LLM)のエージェント機能が著しく向上している。長期的かつ多ターンにわたるエージェントタスクにおいて、成果報酬のみに依存する従来のアプローチは、しばしば疎な教師信号という問題に直面する。この課題に対処するため、本研究では、木構造探索に基づくグループ化エージェント強化学習手法「Tree-based Group Relative Policy Optimization(Tree-GRPO)」を提案する。Tree-GRPOでは、木の各ノードがエージェントの完全な相互作用ステップを表す。共通の接頭語を共有することで、固定されたトークン数またはツール呼び出し回数の予算内で、より多くのロールアウトを実現可能となる。さらに、木構造による軌道表現は、成果報酬のみを用いても、ステップ単位のプロセス教師信号を自然に構築可能であることを発見した。この特性を基に、Tree-GRPOは木内および木間の両レベルでグループ化された相対的優位性を推定する。理論的解析により、木内レベルにおけるグループ化相対方策最適化の目的関数が、ステップレベルの直接的好み学習(direct preference learning)と等価であることを示した。11のデータセットおよび3種類のQAタスクにおける実験により、提案手法である木構造ベースのRLが、チェーン構造ベースのRLに比べて優れた性能を発揮することが確認された。