QMIX : Factorisation monotone de la fonction de valeur pour l'apprentissage par renforcement multi-agent profond

Dans de nombreux contextes réels, un groupe d'agents doit coordonner leur comportement tout en agissant de manière décentralisée. En même temps, il est souvent possible d'entraîner ces agents de manière centralisée dans un environnement simulé ou en laboratoire, où les informations sur l'état global sont disponibles et les contraintes de communication sont levées. L'apprentissage des valeurs d'action conjointe conditionnées par des informations supplémentaires sur l'état est une méthode attrayante pour exploiter l'apprentissage centralisé, mais la meilleure stratégie pour ensuite extraire des politiques décentralisées n'est pas claire. Notre solution est QMIX, une nouvelle méthode basée sur la valeur qui peut entraîner des politiques décentralisées de manière centralisée et intégrée. QMIX utilise un réseau qui estime les valeurs d'action conjointe comme une combinaison complexe et non linéaire des valeurs individuelles par agent, ces dernières ne s'appuyant que sur des observations locales. Nous imposons structurellement que la valeur d'action conjointe soit monotone par rapport aux valeurs individuelles, ce qui permet une maximisation tracable de la valeur d'action conjointe dans l'apprentissage hors politique (off-policy) et garantit la cohérence entre les politiques centralisées et décentralisées. Nous évaluons QMIX sur un ensemble difficile de tâches de microgestion dans StarCraft II, et montrons que QMIX dépasse significativement les méthodes existantes d'apprentissage par renforcement multi-agents basées sur la valeur.