Die StarCraft-Mehragenten-Herausforderung

In den letzten Jahren ist tiefes Mehragenten-Reinforcement-Learning (RL) zu einem hochgradig aktiven Forschungsbereich geworden. Eine besonders herausfordernde Klasse von Problemen in diesem Bereich sind teilweise beobachtbare, kooperative Mehragentensysteme, bei denen Teams von Agenten lernen müssen, ihr Verhalten abzustimmen, während sie sich nur auf ihre privaten Beobachtungen stützen können. Dies ist ein attraktiver Forschungsbereich, da solche Probleme für eine große Anzahl von realen Systemen relevant sind und sich besser bewerten lassen als allgemeine Summenspiele. Standardisierte Umgebungen wie das Arcade Learning Environment (ALE) und MuJoCo haben es ermöglicht, dass einzelne Agenten-RL über Spielwelt-Domains hinausgeht, wie z.B. Gitterwelten. Es gibt jedoch keinen vergleichbaren Benchmark für kooperatives Mehragenten-RL. Als Folge davon verwenden die meisten Arbeiten in diesem Feld einmalige Spielwelt-Probleme, was es schwierig macht, echte Fortschritte zu messen. In dieser Arbeit schlagen wir die StarCraft Multi-Agent Challenge (SMAC) als Benchmark-Problem vor, um diese Lücke zu schließen. SMAC basiert auf dem beliebten Echtzeit-Strategiespiel StarCraft II und konzentriert sich auf Mikroverwaltungsaufgaben, bei denen jede Einheit von einem unabhängigen Agenten gesteuert wird, der sich auf lokale Beobachtungen stützen muss. Wir bieten eine vielfältige Sammlung von Herausforderungs-Karten und Empfehlungen für beste Praktiken im Benchmarking und der Bewertung. Zudem stellen wir einen Open-Source-Framework für tiefes Mehragenten-RL zur Verfügung, der neueste Algorithmen enthält. Wir glauben, dass SMAC in den kommenden Jahren eine Standard-Benchmark-Umgebung bieten kann. Videos unserer besten Agenten für verschiedene SMAC-Szenarien sind unter folgendem Link verfügbar: https://youtu.be/VZ7zmQ_obZ0.