Acteur-Critique Multi-Agents pour des Environnements Mixtes de Coopération et de Compétition

Nous explorons les méthodes d'apprentissage par renforcement profond pour les domaines à agents multiples. Nous commençons par analyser la difficulté des algorithmes traditionnels dans le cas de plusieurs agents : l'algorithme Q-learning est confronté à une instabilité inhérente de l'environnement, tandis que le gradient de politique souffre d'une variance qui augmente avec le nombre d'agents. Nous présentons ensuite une adaptation des méthodes acteur-critique qui prend en compte les politiques d'action des autres agents et est capable d'apprendre avec succès des politiques nécessitant une coordination complexe entre plusieurs agents. De plus, nous introduisons un régime d'entraînement utilisant un ensemble de politiques pour chaque agent, ce qui conduit à des politiques plus robustes dans les systèmes multi-agents. Nous démontrons la force de notre approche par rapport aux méthodes existantes dans des scénarios coopératifs ainsi que compétitifs, où les populations d'agents sont capables de découvrir diverses stratégies de coordination physiques et informationnelles.