ACE : Apprentissage par renforcement Q coopératif multi-agents avec dépendance bidirectionnelle sur les actions

L'apprentissage par renforcement multi-agents (MARL) souffre du problème de non-stationnarité, qui se manifeste par des cibles en constante évolution à chaque itération lorsque plusieurs agents mettent à jour leurs politiques simultanément. En partant de principes fondamentaux, ce papier propose une solution à ce problème grâce à une nouvelle méthode appelée Q-learning à dépendance d'action bidirectionnelle (ACE). Le cœur du développement d’ACE réside dans un processus de prise de décision séquentielle, où un seul agent est autorisé à agir à chaque instant. Dans ce cadre, chaque agent maximise sa fonction de valeur en tenant compte des actions des agents précédents lors de l’étape d’inférence. Pendant la phase d’apprentissage, chaque agent minimise l’erreur de différence temporelle (TD), qui dépend de la réaction des agents suivants face à son action choisie. Grâce à cette dépendance bidirectionnelle, ACE transforme efficacement un MDP multi-agents en un MDP mono-agent. Nous implémentons le cadre ACE en identifiant une représentation réseau adéquate pour modéliser la dépendance entre les actions, permettant ainsi que le processus de décision séquentielle soit calculé implicitement en une seule passe avant (forward pass). Pour valider ACE, nous le comparons à des baselines performantes sur deux benchmarks de MARL. Les expériences empiriques montrent que ACE surpasser largement les algorithmes de pointe sur Google Research Football et StarCraft Multi-Agent Challenge (SMAC). En particulier, sur les tâches SMAC, ACE atteint un taux de réussite de 100 % sur presque toutes les cartes difficiles et très difficiles. Nous menons également une étude approfondie sur divers problèmes de recherche liés à ACE, notamment son extension, sa généralisation et sa praticabilité. Le code source est rendu disponible afin de faciliter les recherches futures.