StarCraft II: 強化学習の新たな挑戦

本論文では、StarCraft IIを基にした強化学習環境であるSC2LE(StarCraft II Learning Environment)について紹介します。この領域は、これまでの研究で考慮された問題よりも困難なクラスの問題を表し、強化学習にとって新たな大きな課題となっています。複数のプレイヤーが相互作用する多エージェント問題であり、部分的に観測可能なマップにより不完全な情報が存在します。また、数百のユニットを選択し制御する大規模な行動空間と、生の入力特徴平面からみるだけの大規模な状態空間を持っています。さらに、数千ステップにわたる長期戦略が必要となる遅延クレジットアサインメントも特徴です。StarCraft II領域における観測、行動、報酬の仕様について説明し、ゲームエンジンとの通信を行うオープンソースのPythonベースインターフェースを提供します。主要なゲームマップだけでなく、StarCraft IIのプレイ要素に焦点を当てたミニゲーム群も提供しています。主要なゲームマップについては、人間の専門プレイヤーによるゲームリプレイデータセットも提供しています。このデータからニューラルネットワークを学習させてゲーム結果やプレイヤー行動を予測する初期基準結果を示します。さらに、標準的な深層強化学習エージェントをStarCraft II領域に適用した初期基準結果も提示します。ミニゲームにおいては、これらのエージェントは初心者プレイヤーと同等のレベルまで学習することができます。しかし、主要なゲームで訓練すると、これらのエージェントは著しい進歩を見ることができません。したがって、SC2LEは深層強化学習アルゴリズムやアーキテクチャを探求するための新しい挑戦的な環境を提供しています。