Die StarCraft Multi-Agent Challenges+ : Lernen von Multi-Stage-Aufgaben und Umweltfaktoren ohne präzise Belohnungsfunktionen

In diesem Artikel stellen wir einen neuen Benchmark namens StarCraft Multi-Agent Challenges+ vor, bei dem Agenten lernen, mehrstufige Aufgaben zu bewältigen und Umweltfaktoren ohne präzise Belohnungsfunktionen zu nutzen. Die vorherigen Herausforderungen (SMAC), die als Standardbenchmark für Multi-Agenten-Reinforcement-Learning gelten, konzentrieren sich hauptsächlich darauf, sicherzustellen, dass alle Agenten kooperativ herannahende Gegner ausschalten, und zwar ausschließlich durch fein abgestimmte Manipulationen unter Verwendung offensichtlicher Belohnungsfunktionen. Im Gegensatz dazu ist die vorliegende Herausforderung auf die Erkundungsfähigkeit von MARL-Algorithmen ausgerichtet, um implizite, mehrstufige Aufgaben sowie Umweltfaktoren und Mikro-Steuerung effizient zu erlernen. Diese Studie umfasst sowohl offensive als auch defensive Szenarien. In den offensiven Szenarien müssen die Agenten zunächst Gegner finden und anschließend eliminieren. In den defensiven Szenarien müssen die Agenten topografische Merkmale nutzen; beispielsweise müssen sie sich hinter schützenden Strukturen positionieren, um es Gegnern erschweren, sie anzugreifen. Wir untersuchen MARL-Algorithmen im Kontext von SMAC+ und stellen fest, dass neuere Ansätze in ähnlichen Szenarien wie den vorherigen Herausforderungen gut funktionieren, jedoch in offensiven Szenarien fehlerhaft agieren. Zudem beobachten wir, dass eine verbesserte Erkundungsstrategie die Leistung positiv beeinflusst, jedoch nicht in der Lage ist, alle Szenarien vollständig zu lösen. Diese Studie legt neue Forschungsrichtungen für zukünftige Arbeiten nahe.