Gradient de Politique Multi-Agents Contrefactuels

Les systèmes multi-agents coopératifs peuvent être utilisés de manière naturelle pour modéliser de nombreux problèmes du monde réel, tels que le routage de paquets dans les réseaux et la coordination des véhicules autonomes. Il existe un besoin considérable de nouvelles méthodes d'apprentissage par renforcement capables d'apprendre efficacement des politiques décentralisées pour ces systèmes. À cet effet, nous proposons une nouvelle méthode multi-agents acteur-critique appelée gradients de politiques multi-agents contre-factuels (COMA). COMA utilise un critique centralisé pour estimer la fonction Q et des acteurs décentralisés pour optimiser les politiques des agents. De plus, pour relever les défis de l'attribution du crédit dans les systèmes multi-agents, il utilise une ligne de base contre-factuelle qui marginalise l'action d'un seul agent tout en gardant les actions des autres agents fixes. COMA utilise également une représentation du critique qui permet de calculer la ligne de base contre-factuelle efficacement en une seule passe avant. Nous évaluons COMA sur le banc d'essai de la micro-gestion des unités dans StarCraft, en utilisant une variante décentralisée avec une observabilité partielle significative. COMA améliore considérablement les performances moyennes par rapport aux autres méthodes multi-agents acteur-critique dans ce contexte, et les agents les mieux performants sont compétitifs avec les contrôleurs centralisés d'avant-garde qui ont accès à l'état complet.