Réseaux de Décomposition de Valeur pour l'Apprentissage Coopératif Multi-Agents

Nous étudions le problème de l'apprentissage par renforcement coopératif à plusieurs agents avec un seul signal de récompense conjointe. Cette classe de problèmes d'apprentissage est difficile en raison des espaces d'actions et d'observations combinés souvent importants. Dans les approches entièrement centralisées et décentralisées, nous identifions le problème des récompenses parasites et un phénomène que nous appelons le « problème de l'agent paresseux », qui découle de l'observabilité partielle. Nous abordons ces problèmes en formant des agents individuels avec une nouvelle architecture de réseau de décomposition de valeur, qui apprend à décomposer la fonction de valeur d'équipe en fonctions de valeur spécifiques à chaque agent. Nous effectuons une évaluation expérimentale sur une gamme de domaines multi-agents partiellement observables et montrons que l'apprentissage de telles décompositions de valeur conduit à des résultats supérieurs, en particulier lorsqu'il est combiné avec le partage des poids, les informations sur les rôles et les canaux d'information.