16日前

ACE:双方向行動依存性を有する協調的マルチエージェントQ学習

Chuming Li, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang
ACE:双方向行動依存性を有する協調的マルチエージェントQ学習
要約

マルチエージェント強化学習(MARL)は、複数のエージェントが同時に方策を更新する際に、各反復でターゲットが常に変化するという「非定常性(non-stationarity)」の問題に直面している。本論文では、第一原理から出発し、双方向的行動依存Q学習(ACE: Action-Dependent Q-learning with Bidirectional dependency)を提案することで、この非定常性問題を解決することに成功した。ACEの開発の核となるのは、順次的決定プロセスの設計であり、各ステップで一度に一つのエージェントのみが行動を取ることを許容する。このプロセスにおいて、推論段階では各エージェントが先行エージェントが取った行動を前提として、自身の価値関数を最大化する。学習段階では、各エージェントが後続エージェントの反応に依存するTD誤差を最小化する。この双方向依存構造により、ACEはマルチエージェントMDP(マルコフ決定過程)を単一エージェントMDPに効果的に変換する。ACEフレームワークは、行動依存関係を適切なネットワーク表現として定式化することで実装され、順次的決定プロセスが1回の順伝播(forward pass)で暗黙的に計算可能となる。ACEの有効性を検証するため、2つの代表的なMARLベンチマークにおいて強力なベースラインと比較した。実験結果は、Google Research FootballおよびStarCraft Multi-Agent Challenge(SMAC)において、ACEが最先端のアルゴリズムを大きく上回ることを示している。特にSMACタスクにおいて、ほぼすべてのハードおよびスーパーハードマップで100%の成功率を達成した。さらに、ACEに関する広範な研究課題、すなわち拡張性、一般化能力および実用性についても検討を行った。コードは公開されており、今後の研究を促進するものである。

ACE:双方向行動依存性を有する協調的マルチエージェントQ学習 | 最新論文 | HyperAI超神経