11日前

マルチエージェント強化学習における分布価値関数の因子分解のための統一枠組み

Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee

要約

完全協調型マルチエージェント強化学習（MARL）の設定では、各エージェントの部分観測性および他のエージェントのポリシーが継続的に変化するため、環境は非常に確率的である。上記の問題に対処するため、本研究では、分布型強化学習（distributional RL）と価値関数因子分解法を統合するための包括的フレームワーク「DFAC」を提案した。このフレームワークは、期待値関数の因子分解手法を一般化し、リターン分布の因子分解を可能にする。DFACの有効性を検証するために、まず確率的報酬を伴う単純な行列ゲームにおいて、価値関数の因子分解が可能であることを示した。さらに、StarCraftマルチエージェントチャレンジのすべての「スーパーハード」マップおよび自ら設計した6つの「ウルトラハード」マップにおいて実験を行い、DFACが多数のベースライン手法を上回る性能を発揮することを確認した。