HyperAIHyperAI

Command Palette

Search for a command to run...

Gradient de Politique Multi-Agents Contrefactuels

Jakob N. Foerster Triantafyllos Afouras Nantas Nardelli Shimon Whiteson

Résumé

Les systèmes multi-agents coopératifs peuvent être utilisés de manière naturelle pour modéliser de nombreux problèmes du monde réel, tels que le routage de paquets dans les réseaux et la coordination des véhicules autonomes. Il existe un besoin considérable de nouvelles méthodes d'apprentissage par renforcement capables d'apprendre efficacement des politiques décentralisées pour ces systèmes. À cet effet, nous proposons une nouvelle méthode multi-agents acteur-critique appelée gradients de politiques multi-agents contre-factuels (COMA). COMA utilise un critique centralisé pour estimer la fonction Q et des acteurs décentralisés pour optimiser les politiques des agents. De plus, pour relever les défis de l'attribution du crédit dans les systèmes multi-agents, il utilise une ligne de base contre-factuelle qui marginalise l'action d'un seul agent tout en gardant les actions des autres agents fixes. COMA utilise également une représentation du critique qui permet de calculer la ligne de base contre-factuelle efficacement en une seule passe avant. Nous évaluons COMA sur le banc d'essai de la micro-gestion des unités dans StarCraft, en utilisant une variante décentralisée avec une observabilité partielle significative. COMA améliore considérablement les performances moyennes par rapport aux autres méthodes multi-agents acteur-critique dans ce contexte, et les agents les mieux performants sont compétitifs avec les contrôleurs centralisés d'avant-garde qui ont accès à l'état complet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp