17日前
StarCraftマルチエージェントチャレンジ+:正確な報酬関数なしにおけるマルチステージタスクおよび環境要因の学習
Mingyu Kim, Jihwan Oh, Yongsik Lee, Joonkee Kim, Seonghwan Kim, Song Chong, Se-Young Yun

要約
本稿では、正確な報酬関数なしに複数段階のタスクを遂行し、環境要因を活用する能力を学習するエージェントを評価するための新たなベンチマーク「StarCraft Multi-Agent Challenges+(SMAC+)」を提案する。従来の標準的なマルチエージェント強化学習(MARL)ベンチマークとして広く認識されているSMACは、エージェントが明確な報酬関数に基づいて、敵の接近を防ぎつつ協調的に敵を排除することを主な目的としている。一方、SMAC+は、MARLアルゴリズムがインプリシットな複数段階のタスクや環境要因を効率的に学習するための探索能力に焦点を当てる。本研究では攻撃的状況と防御的状況の両方をカバーしている。攻撃的状況では、エージェントがまず敵を特定し、その後で排除する能力を学習する必要がある。一方、防御的状況では、地形的な特徴を活用する能力が求められる。例えば、敵からの攻撃を困難にするために、保護構造物の背後に位置するなどの戦術的配置が要求される。SMAC+におけるMARLアルゴリズムの実験結果から、最近のアプローチは従来の設定と類似した環境では良好な性能を示すものの、攻撃的状況では誤動作を示すことがわかった。さらに、強化された探索戦略が性能向上に寄与する一方で、すべての状況を完全に解決できるわけではないことも明らかになった。本研究は、今後のMARL研究における新たな方向性を提示する。