Le Défi Multi-Agents de StarCraft

Ces dernières années, l'apprentissage par renforcement (AR) profond multi-agent est devenu un domaine de recherche très actif. Une classe particulièrement difficile de problèmes dans ce domaine est l'apprentissage multi-agent coopératif partiellement observable, où des équipes d'agents doivent apprendre à coordonner leur comportement en se basant uniquement sur leurs observations privées. Ce domaine de recherche est attractif car ces problèmes sont pertinents pour un grand nombre de systèmes du monde réel et sont également plus propices à l'évaluation que les problèmes à somme générale. Des environnements standardisés tels que l'ALE et MuJoCo ont permis à l'AR mono-agent de dépasser les domaines ludiques, comme les mondes en grille. Cependant, il n'existe pas de benchmark comparable pour l'AR multi-agent coopératif. Par conséquent, la plupart des articles dans ce domaine utilisent des problèmes ludiques ponctuels, rendant difficile la mesure des progrès réels. Dans cet article, nous proposons le StarCraft Multi-Agent Challenge (SMAC) comme problème de référence pour combler cette lacune. SMAC est basé sur le jeu de stratégie en temps réel populaire StarCraft II et se concentre sur les défis de microgestion où chaque unité est contrôlée par un agent indépendant qui doit agir en fonction d'observations locales. Nous offrons une gamme variée de cartes de défi ainsi que des recommandations pour les meilleures pratiques en matière de benchmarking et d'évaluations. Nous mettons également à disposition une plateforme d'apprentissage AR profond multi-agent open source incluant des algorithmes d'avant-garde. Nous croyons que SMAC peut fournir un environnement de référence standard pour les années à venir. Des vidéos de nos meilleurs agents pour plusieurs scénarios SMAC sont disponibles à : https://youtu.be/VZ7zmQ_obZ0.