Désentrelacer les sources de risque pour l'apprentissage par renforcement multi-agents distribué

Dans l’apprentissage par renforcement multi-agents coopératifs, les transitions d’état, les récompenses et les actions peuvent toutes induire une aléatoire (ou une incertitude) dans les rendements à long terme observés. Ces aléatoires proviennent de deux sources de risque : (a) le risque propre à l’agent (c’est-à-dire la manière dont les partenaires coopèrent pour un agent donné) et (b) le risque propre à l’environnement (c’est-à-dire la stochasticité des transitions). Bien que ces deux sources soient des facteurs importants pour l’apprentissage de politiques robustes, les travaux antérieurs ne les séparent pas ou ne traitent qu’une seule source de risque, ce qui peut conduire à des équilibres sous-optimaux. Dans cet article, nous proposons DRIMA (Disentangled RIsk-sensitive Multi-Agent reinforcement learning), un cadre novateur capable de désentrelacer les sources de risque. Notre idée principale consiste à séparer les niveaux de risque (c’est-à-dire les quantiles) lors de l’entraînement centralisé et de l’exécution décentralisée, en utilisant une structure hiérarchique de quantiles et une régression par quantiles. Nos expériences montrent que DRIMA surpasse significativement les méthodes antérieures dans divers scénarios du StarCraft Multi-agent Challenge. Notamment, DRIMA présente une performance robuste indépendamment du remodelage des récompenses ou du plan d’exploration, contrairement aux méthodes antérieures qui apprennent uniquement une politique sous-optimale.