2ヶ月前
カウンターファクチュアルマルチエージェントポリシーグラディエント
Jakob Foerster; Gregory Farquhar; Triantafyllos Afouras; Nantas Nardelli; Shimon Whiteson

要約
協調型多エージェントシステムは、ネットワークパケットルーティングや自律車両の調整など、多くの現実世界の問題をモデル化するために自然に使用することができます。このようなシステムに対する分散ポリシーを効率的に学習できる新しい強化学習手法の開発が強く求められています。この目的のために、我々はカウンターファクチュアル・マルチエージェント(COMA)ポリシーグラディエントと呼ばれる新しい多エージェントアクター・クリティック手法を提案します。COMAは、Q関数を推定するための中核的なクリティックと、エージェントのポリシーを最適化するための分散型アクターを使用します。さらに、多エージェントでの報酬分配の課題に対処するために、他のエージェントの行動を固定したまま単一のエージェントの行動を周辺化するカウンターファクチュアルベースラインを利用します。COMAはまた、カウンターファクチュアルベースラインを単一の順方向パスで効率的に計算できるクリティック表現を使用しています。我々はStarCraftユニットマイクロマネジメントというテストベッドにおいて、部分観測性が著しい分散型バリアントを使用してCOMAを評価しました。この設定では、COMAは他の多エージェントアクター・クリティック手法よりも平均性能が大幅に向上しており、最高性能を出したエージェントは完全状態情報にアクセスできる最先端の中核制御器と競争力があります。