2ヶ月前

複数エージェントのアクターキリティック法を用いた協調競争環境での学習

Ryan Lowe; Yi Wu; Aviv Tamar; Jean Harb; Pieter Abbeel; Igor Mordatch
複数エージェントのアクターキリティック法を用いた協調競争環境での学習
要約

私たちはマルチエージェント領域における深層強化学習手法の探索を行っています。まず、伝統的なアルゴリズムがマルチエージェントケースで直面する困難を分析します。Q学習は環境の内在的な非定常性に挑戦しており、ポリシーグラディエントはエージェント数が増えるにつれて分散が増大する問題に直面しています。次に、他のエージェントの行動方策を考慮したアクターキリッカーメソッドの適応について説明します。この方法は複雑なマルチエージェント協調が必要な方策を成功裏に学習することができます。さらに、各エージェントに対してポリシーのアンサンブルを使用する訓練方法を導入し、より堅牢なマルチエージェント方策を実現しています。最後に、協調的な場面だけでなく競争的な場面でも既存の手法と比較して当アプローチの有効性を示します。これにより、エージェント集団はさまざまな物理的および情報的協調戦略を見出すことが可能となります。(注:「アクターキリッカーメソッド」は一般的には「Actor-Critic Method」と表記されます。「ポリシーのアンサンブル」は「Ensemble of Policies」と表記されます。)