Les défis multi-agents StarCraft+ : apprentissage de tâches multi-étapes et de facteurs environnementaux sans fonctions de récompense précises

Dans cet article, nous proposons un nouveau benchmark appelé StarCraft Multi-Agent Challenges+ (SMAC+), dans lequel les agents apprennent à accomplir des tâches multi-étapes et à exploiter des facteurs environnementaux sans fonctions de récompense précises. Les défis précédents (SMAC), reconnus comme référence standard en apprentissage par renforcement multi-agents (MARL), se concentrent principalement sur la coordination coopérative de tous les agents afin d’éliminer des adversaires approchants, uniquement grâce à une manipulation fine et à des fonctions de récompense explicites. À l’inverse, ce nouveau défi s’intéresse à la capacité d’exploration des algorithmes MARL à apprendre efficacement des tâches multi-étapes implicites, des facteurs environnementaux ainsi que des contrôles micros, dans des scénarios complexes. Cette étude couvre à la fois des scénarios offensifs et défensifs. Dans les scénarios offensifs, les agents doivent d’abord localiser leurs adversaires, puis les éliminer. Dans les scénarios défensifs, les agents doivent exploiter les caractéristiques topographiques du terrain : par exemple, ils doivent se positionner derrière des structures de protection pour rendre l’attaque de l’adversaire plus difficile. Nous étudions la performance des algorithmes MARL sur SMAC+ et constatons que les approches récentes se comportent bien dans des configurations similaires à celles des défis précédents, mais échouent dans les scénarios offensifs. De plus, nous observons qu’une approche améliorée de l’exploration améliore significativement les performances, bien qu’elle ne parvienne pas à résoudre entièrement tous les scénarios. Cette étude ouvre ainsi de nouvelles pistes pour la recherche future.