HyperAIHyperAI

Command Palette

Search for a command to run...

Cadre DFAC : Factorisation de la fonction de valeur par mélange de quantiles pour l'apprentissage Q distributionnel multi-agents

Wei-Fang Sun Cheng-Kuang Lee Chun-Yi Lee

Résumé

Dans les cadres de l'apprentissage par renforcement multi-agents (MARL) entièrement coopératifs, les environnements sont fortement stochastiques en raison de l'observabilité partielle de chaque agent ainsi que du changement continu des politiques des autres agents. Pour relever ces défis, nous intégrons les méthodes d'apprentissage par renforcement distributionnel et les approches de factorisation de fonction de valeur en proposant un cadre appelé Distributional Value Function Factorization (DFAC), permettant de généraliser les méthodes classiques de factorisation de fonction de valeur espérée à leurs variantes distributionnelles. Le DFAC étend les fonctions d'utilité individuelles de variables déterministes à des variables aléatoires, et modélise la fonction de quantile du retour total comme un mélange de quantiles. Pour valider le DFAC, nous démontrons sa capacité à factoriser un jeu matriciel simple à deux étapes avec récompenses stochastiques, et menons des expériences sur toutes les tâches Super Hard du StarCraft Multi-Agent Challenge, montrant ainsi que le DFAC surpasse les méthodes de base basées sur la factorisation de fonction de valeur espérée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp