il y a 11 jours

Cadre DFAC : Factorisation de la fonction de valeur par mélange de quantiles pour l'apprentissage Q distributionnel multi-agents

Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee

Résumé

Dans les cadres de l'apprentissage par renforcement multi-agents (MARL) entièrement coopératifs, les environnements sont fortement stochastiques en raison de l'observabilité partielle de chaque agent ainsi que du changement continu des politiques des autres agents. Pour relever ces défis, nous intégrons les méthodes d'apprentissage par renforcement distributionnel et les approches de factorisation de fonction de valeur en proposant un cadre appelé Distributional Value Function Factorization (DFAC), permettant de généraliser les méthodes classiques de factorisation de fonction de valeur espérée à leurs variantes distributionnelles. Le DFAC étend les fonctions d'utilité individuelles de variables déterministes à des variables aléatoires, et modélise la fonction de quantile du retour total comme un mélange de quantiles. Pour valider le DFAC, nous démontrons sa capacité à factoriser un jeu matriciel simple à deux étapes avec récompenses stochastiques, et menons des expériences sur toutes les tâches Super Hard du StarCraft Multi-Agent Challenge, montrant ainsi que le DFAC surpasse les méthodes de base basées sur la factorisation de fonction de valeur espérée.