StarCraft II: Eine Neue Herausforderung für das Reinforcement Learning

Dieses Papier stellt SC2LE (StarCraft II Learning Environment) vor, eine Umgebung für Verstärkungslernen, die auf dem Spiel StarCraft II basiert. Dieses Gebiet stellt eine neue große Herausforderung für das Verstärkungslernen dar und repräsentiert eine schwierigere Klasse von Problemen als in den meisten früheren Arbeiten betrachtet. Es handelt sich um ein Mehragentenproblem mit mehreren interagierenden Spielern; es gibt unvollständige Informationen aufgrund einer teilweise beobachteten Karte; es verfügt über einen großen Aktionenraum, der die Auswahl und Steuerung von Hunderten von Einheiten erfordert; es hat einen großen Zustandsraum, der ausschließlich aus rohen Eingabemerkmalsflächen beobachtet werden muss; und es hat verzögerte Zurechnung von Erfolgen, die langfristige Strategien über Tausende von Schritten erfordern. Wir beschreiben die Spezifikationen für Beobachtungen, Aktionen und Belohnungen im StarCraft II-Gebiet und stellen eine Open-Source-Schnittstelle zur Verfügung, die auf Python basiert und zur Kommunikation mit dem Spielsimulator dient. Neben den Hauptspielfeldern bieten wir auch eine Reihe von Minispielen an, die sich auf verschiedene Elemente des StarCraft II-Spiels konzentrieren. Für die Hauptspielfelder stellen wir außerdem einen begleitenden Datensatz aus Wiederholungsdaten menschlicher Expertenspieler zur Verfügung. Wir geben erste Baseline-Ergebnisse für neuronale Netze, die anhand dieser Daten trainiert wurden, um Spielverläufe und Spieleraktionen vorherzusagen. Schließlich präsentieren wir erste Baseline-Ergebnisse für kanonische Deep-Reinforcement-Learning-Agenten, die auf das StarCraft II-Gebiet angewendet wurden. Bei den Minispielen lernen diese Agenten ein Niveaustand zu erreichen, das einem Anfängerspieler vergleichbar ist. Allerdings machen sie bei der Ausbildung am Hauptspiel keinen signifikanten Fortschritt. Somit bietet SC2LE eine neue und anspruchsvolle Umgebung zur Erkundung von Algorithmen und Architekturen des tiefen Verstärkungslernens.