Command Palette

Search for a command to run...

7時間前

Multi-Agentディープリサーチ:M-GRPOを用いたMulti-Agentシステムの学習

Multi-Agentディープリサーチ:M-GRPOを用いたMulti-Agentシステムの学習

要約

以下は提供された英文テキストの日本語訳です。学術論文や技術報告書に適した、正式かつ専門的な文体(「である」調)で翻訳いたしました。マルチエージェントシステムは一般的な推論タスクにおいて良好な性能を示す一方で、専門領域における学習不足が精度の制約となっている。既存の学習手法は、システム内の全エージェントに対して統一された大規模言語モデル(LLM)を学習させるものである。しかし、エージェントごとに内在する分布が異なるため、この手法では性能が制限される可能性がある。したがって、個別のLLMを用いてマルチエージェントシステムを学習させることが、解決すべき次なるステップとなる。とはいえ、このアプローチは最適化における課題をもたらす。例えば、エージェントごとの動作頻度の不一致、ロールアウトにおけるサブエージェント呼び出し回数の変動、さらにはエージェントが別々のサーバーに配置されることによるエンドツーエンドの勾配フローの分断などが挙げられる。これらの問題に対処するため、我々は「M-GRPO」を提案する。これは、メインエージェント(プランナー)と複数のサブエージェント(マルチターンツール実行者)で構成される垂直型マルチエージェントシステム向けに設計された、Group Relative Policy Optimization(GRPO)の階層的拡張である。M-GRPOは、メインエージェントとサブエージェントの両方に対してグループ相対アドバンテージ(group-relative advantages)を計算し、階層的な信用割り当て(credit assignment)を維持する。また、サブエージェントの呼び出し回数が変動する場合でも固定サイズのバッチ生成を可能にする、軌跡アライメント(trajectory-alignment)スキームも導入している。我々は、エージェントを別々のサーバーで実行し、共有ストアを介して最小限の統計情報のみを交換する、分離型学習パイプラインを展開した。これにより、サーバー間の誤差逆伝播を行うことなく、スケーラブルな学習が可能となる。実世界のベンチマーク(GAIA、XBench-DeepSearch、WebWalkerQAなど)を用いた実験において、M-GRPOはシングルエージェントGRPOおよびサブエージェントを固定した(frozen)マルチエージェントGRPOを一貫して上回り、安定性とサンプル効率の向上を実証した。これらの結果は、異質な軌跡を調整し、専門化されたエージェント間で最適化を分離することが、ツール拡張推論タスクの性能向上に寄与することを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Multi-Agentディープリサーチ:M-GRPOを用いたMulti-Agentシステムの学習 | 論文 | HyperAI超神経