HyperAIHyperAI

Command Palette

Search for a command to run...

Factorisation de fonction de valeur monotone pour l'apprentissage par renforcement multi-agents profond

Tabish Rashid Mikayel Samvelyan Christian Schroeder de Witt Gregory Farquhar Jakob Foerster Shimon Whiteson

Résumé

Dans de nombreux contextes réels, une équipe d’agents doit coordonner son comportement tout en agissant de manière décentralisée. Parallèlement, il est souvent possible d’entraîner les agents de façon centralisée, où l’information sur l’état global est disponible et où les contraintes de communication sont levées. L’apprentissage de valeurs d’action conjointes conditionnées par des informations d’état supplémentaires constitue une approche attrayante pour exploiter l’apprentissage centralisé, mais la meilleure stratégie pour extraire ensuite des politiques décentralisées reste incertaine. Notre solution repose sur QMIX, une nouvelle méthode fondée sur les valeurs, capable d’entraîner des politiques décentralisées de manière centralisée et end-to-end. QMIX utilise un réseau de mixage qui estime les valeurs d’action conjointes comme une combinaison monotone des valeurs par agent. Nous imposons structuralement la monotonie de la valeur d’action conjointe par rapport aux valeurs par agent, grâce à l’utilisation de poids non négatifs dans le réseau de mixage, garantissant ainsi une cohérence entre les politiques centralisées et décentralisées. Pour évaluer les performances de QMIX, nous proposons le StarCraft Multi-Agent Challenge (SMAC) comme un nouveau benchmark pour l’apprentissage par renforcement multi-agents profond. Nous évaluons QMIX sur un ensemble exigeant de scénarios SMAC et démontrons qu’il surpasse significativement les méthodes existantes d’apprentissage par renforcement multi-agents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp