16日前

深層多エージェント強化学習における単調な価値関数因子分解

Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory Farquhar, Jakob Foerster, Shimon Whiteson

要約

多くの現実世界の状況において、エージェントのチームは分散型の方式で行動しつつ、その行動を協調させる必要がある。一方で、グローバルな状態情報が利用可能であり、通信制約が存在しない中央集権的な学習環境において、エージェントを訓練することがしばしば可能である。追加の状態情報を条件とした連携行動価値（joint action-values）を学習することは、中央集権的学習を活用する魅力的な手法であるが、その結果として分散型の方策（policy）をどのように抽出するかという点については、最適な戦略が明確でない。本研究では、中央集権的かつエンドツーエンドの方式で分散型方策を学習可能な、新しい価値ベースの手法であるQMIXを提案する。QMIXは、各エージェントの価値の単調な組み合わせとして連携行動価値を推定するミキシングネットワーク（mixing network）を採用している。このミキシングネットワークでは、非負の重みを用いることで、連携行動価値が各エージェントの価値に対して単調性を持つ構造を強制的に保証しており、これにより中央集権的学習と分散型実行の間で方策の一貫性が確保される。QMIXの性能評価のため、深層多エージェント強化学習のための新しいベンチマークとして「StarCraft Multi-Agent Challenge（SMAC）」を提案する。本研究では、SMACの挑戦的な複数のシナリオにおいてQMIXを評価し、従来の多エージェント強化学習手法と比較して顕著な性能向上を示した。