HyperAIHyperAI
il y a 16 jours

Un cadre unifié pour la factorisation des fonctions de valeur distributionnelles en apprentissage par renforcement multi-agents

Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee
Un cadre unifié pour la factorisation des fonctions de valeur distributionnelles en apprentissage par renforcement multi-agents
Résumé

Dans les cadres de l’apprentissage par renforcement multi-agents (MARL) entièrement coopératifs, les environnements sont fortement stochastiques en raison de l’observation partielle de chaque agent ainsi que du changement continu des politiques des autres agents. Pour répondre à ces défis, nous proposons un cadre unifié, nommé DFAC, permettant d’intégrer l’apprentissage par renforcement distributionnel aux méthodes de factorisation de fonctions de valeur. Ce cadre généralise les méthodes classiques de factorisation de fonctions de valeur attendues afin de permettre la factorisation des distributions de rendement. Pour valider DFAC, nous démontrons d’abord sa capacité à factoriser les fonctions de valeur dans un jeu matriciel simple à récompenses stochastiques. Ensuite, nous menons des expériences sur l’ensemble des cartes Super Hard du StarCraft Multi-Agent Challenge ainsi que sur six cartes Ultra Hard conçues spécifiquement par nos soins, montrant que DFAC surpasse plusieurs méthodes de référence.

Un cadre unifié pour la factorisation des fonctions de valeur distributionnelles en apprentissage par renforcement multi-agents | Articles de recherche récents | HyperAI