HyperAIHyperAI

Command Palette

Search for a command to run...

Un cadre unifié pour la factorisation des fonctions de valeur distributionnelles en apprentissage par renforcement multi-agents

Wei-Fang Sun Cheng-Kuang Lee Simon See Chun-Yi Lee

Résumé

Dans les cadres de l’apprentissage par renforcement multi-agents (MARL) entièrement coopératifs, les environnements sont fortement stochastiques en raison de l’observation partielle de chaque agent ainsi que du changement continu des politiques des autres agents. Pour répondre à ces défis, nous proposons un cadre unifié, nommé DFAC, permettant d’intégrer l’apprentissage par renforcement distributionnel aux méthodes de factorisation de fonctions de valeur. Ce cadre généralise les méthodes classiques de factorisation de fonctions de valeur attendues afin de permettre la factorisation des distributions de rendement. Pour valider DFAC, nous démontrons d’abord sa capacité à factoriser les fonctions de valeur dans un jeu matriciel simple à récompenses stochastiques. Ensuite, nous menons des expériences sur l’ensemble des cartes Super Hard du StarCraft Multi-Agent Challenge ainsi que sur six cartes Ultra Hard conçues spécifiquement par nos soins, montrant que DFAC surpasse plusieurs méthodes de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un cadre unifié pour la factorisation des fonctions de valeur distributionnelles en apprentissage par renforcement multi-agents | Articles | HyperAI