QTRAN : Apprendre à Factoriser avec Transformation pour l'Apprentissage par Renforcement Coopératif Multi-Agents

Nous explorons des solutions basées sur la valeur pour les tâches d'apprentissage par renforcement multi-agent (MARL) dans le régime de formation centralisée avec exécution décentralisée (CTDE), récemment popularisé. Cependant, VDN et QMIX sont des exemples représentatifs qui utilisent l'idée de factorisation de la fonction de valeur d'action conjointe en fonctions individuelles pour une exécution décentralisée. VDN et QMIX ne traitent qu'une fraction des tâches MARL factorisables en raison de leurs contraintes structurelles dans la factorisation, telles que l'additivité et la monotonie. Dans cet article, nous proposons une nouvelle méthode de factorisation pour MARL, QTRAN, qui est libre de ces contraintes structurelles et adopte une nouvelle approche pour transformer la fonction de valeur d'action conjointe originale en une fonction facilement factorisable, tout en conservant les mêmes actions optimales. QTRAN garantit une factorisation plus générale que VDN ou QMIX, couvrant ainsi une classe beaucoup plus large de tâches MARL que les méthodes précédentes. Nos expériences sur les tâches de compression gaussienne multi-domaines et un prédateur-proie modifié montrent une performance supérieure de QTRAN, avec des marges particulièrement importantes dans les jeux dont les gains pénalisent plus sévèrement le comportement non coopératif.