HyperAIHyperAI

Command Palette

Search for a command to run...

Désentrelacer les sources de risque pour l'apprentissage par renforcement multi-agents distribué

Jinwoo Shin Yung Yi Junsu Kim Kyunghwan Son

Résumé

Dans l’apprentissage par renforcement multi-agents coopératifs, les transitions d’état, les récompenses et les actions peuvent toutes induire une aléatoire (ou une incertitude) dans les rendements à long terme observés. Ces aléatoires proviennent de deux sources de risque : (a) le risque propre à l’agent (c’est-à-dire la manière dont les partenaires coopèrent pour un agent donné) et (b) le risque propre à l’environnement (c’est-à-dire la stochasticité des transitions). Bien que ces deux sources soient des facteurs importants pour l’apprentissage de politiques robustes, les travaux antérieurs ne les séparent pas ou ne traitent qu’une seule source de risque, ce qui peut conduire à des équilibres sous-optimaux. Dans cet article, nous proposons DRIMA (Disentangled RIsk-sensitive Multi-Agent reinforcement learning), un cadre novateur capable de désentrelacer les sources de risque. Notre idée principale consiste à séparer les niveaux de risque (c’est-à-dire les quantiles) lors de l’entraînement centralisé et de l’exécution décentralisée, en utilisant une structure hiérarchique de quantiles et une régression par quantiles. Nos expériences montrent que DRIMA surpasse significativement les méthodes antérieures dans divers scénarios du StarCraft Multi-agent Challenge. Notamment, DRIMA présente une performance robuste indépendamment du remodelage des récompenses ou du plan d’exploration, contrairement aux méthodes antérieures qui apprennent uniquement une politique sous-optimale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp