HyperAIHyperAI
il y a 17 jours

Méthode d’Actor-Critic Doux Décomposée pour l’Apprentissage par Renforcement Multi-Agents Cooperatif

Yuan Pu, Shaochen Wang, Rui Yang, Xin Yao, Bin Li
Méthode d’Actor-Critic Doux Décomposée pour l’Apprentissage par Renforcement Multi-Agents Cooperatif
Résumé

Les méthodes d’apprentissage par renforcement profond ont démontré des performances remarquables sur de nombreuses tâches coopératives multi-agents exigeantes. Deux voies de recherche prometteuses s’imposent : la décomposition de la fonction valeur multi-agents et les gradients de politique multi-agents. Dans cet article, nous proposons une nouvelle méthode, le soft actor-critic décomposé multi-agents (mSAC), qui combine efficacement les avantages des deux approches mentionnées. Les principaux composants de cette méthode incluent une architecture de réseau Q décomposé, une politique probabiliste discrète et une fonction d’avantage contre-factuelle (optionnelle). Théoriquement, mSAC permet un apprentissage hors politique (off-policy) efficace et atténue partiellement le problème d’attribution des mérites dans les espaces d’actions discrets comme continus. Évaluée sur le benchmark de microgestion de StarCraft II pour les tâches coopératives multi-agents, notre méthode est expérimentalement comparée à ses variantes, et l’impact de chaque composant est analysé. Les résultats expérimentaux montrent que mSAC surpasse significativement l’approche basée sur la politique COMA, et atteint des performances compétitives par rapport à l’état de l’art basé sur les valeurs, Qmix, sur la plupart des tâches selon le critère de performance asymptotique. En outre, mSAC obtient de très bons résultats sur des tâches à grands espaces d’actions, telles que 2c_vs_64zg et MMM2.

Méthode d’Actor-Critic Doux Décomposée pour l’Apprentissage par Renforcement Multi-Agents Cooperatif | Articles de recherche récents | HyperAI