Factorisation de fonction de valeur monotone pour l'apprentissage par renforcement multi-agents profond

Dans de nombreux contextes réels, une équipe d’agents doit coordonner son comportement tout en agissant de manière décentralisée. Parallèlement, il est souvent possible d’entraîner les agents de façon centralisée, où l’information sur l’état global est disponible et où les contraintes de communication sont levées. L’apprentissage de valeurs d’action conjointes conditionnées par des informations d’état supplémentaires constitue une approche attrayante pour exploiter l’apprentissage centralisé, mais la meilleure stratégie pour extraire ensuite des politiques décentralisées reste incertaine. Notre solution repose sur QMIX, une nouvelle méthode fondée sur les valeurs, capable d’entraîner des politiques décentralisées de manière centralisée et end-to-end. QMIX utilise un réseau de mixage qui estime les valeurs d’action conjointes comme une combinaison monotone des valeurs par agent. Nous imposons structuralement la monotonie de la valeur d’action conjointe par rapport aux valeurs par agent, grâce à l’utilisation de poids non négatifs dans le réseau de mixage, garantissant ainsi une cohérence entre les politiques centralisées et décentralisées. Pour évaluer les performances de QMIX, nous proposons le StarCraft Multi-Agent Challenge (SMAC) comme un nouveau benchmark pour l’apprentissage par renforcement multi-agents profond. Nous évaluons QMIX sur un ensemble exigeant de scénarios SMAC et démontrons qu’il surpasse significativement les méthodes existantes d’apprentissage par renforcement multi-agents.