2ヶ月前

QMIX: ディープマルチエージェント強化学習の単調価値関数分解

Tabish Rashid; Mikayel Samvelyan; Christian Schroeder de Witt; Gregory Farquhar; Jakob Foerster; Shimon Whiteson

要約

多くの実世界の状況において、エージェントのチームは分散型で行動しながら、その行動を調整する必要があります。一方で、エージェントを集中型で訓練することは、シミュレーションや実験室環境においてしばしば可能であり、そのような環境では全体的な状態情報が利用可能であり、通信の制約も解除されます。追加の状態情報を条件に学習した共同行動価値を活用する方法は魅力的ですが、その後分散型のポリシーを抽出する最良の戦略は明確ではありません。私たちの解決策はQMIXであり、これは新しい価値ベースの手法で、集中型かつ端末対端末（end-to-end）で分散型ポリシーを訓練することができます。QMIXでは、各エージェントが局所観測のみに基づいて評価を行う複雑な非線形結合によって共同行動価値を推定するネットワークを使用します。構造的に共同行動価値が各エージェントの評価に対して単調であることを保証することで、オフ方策学習における共同行動価値の効率的な最大化と、集中型ポリシーと分散型ポリシー間の一貫性を確保します。私たちはStarCraft IIの難易度の高いマイクロマネジメントタスクにおいてQMIXを評価し、QMIXが既存の価値ベース多エージェント強化学習手法よりも大幅に優れていることを示しました。