Réseaux Q Multi-Passes pour l'Apprentissage par Renforcement Profond avec des Espaces d'Actions Paramétrés

Les actions paramétrées en apprentissage par renforcement sont composées d'actions discrètes avec des paramètres d'action continus. Cela fournit un cadre pour résoudre des domaines complexes nécessitant la combinaison d'actions de haut niveau avec un contrôle flexible. L'algorithme P-DQN récent étend les réseaux neuronaux profonds aux espaces d'actions de ce type. Cependant, il traite tous les paramètres d'action comme une seule entrée conjointe pour le réseau Q, ce qui remet en question ses fondements théoriques. Nous analysons les problèmes liés à cette approche et proposons une nouvelle méthode, les réseaux neuronaux profonds multi-passages, ou MP-DQN, pour y remédier. Nous démontrons empiriquement que l'MP-DQN surpasse significativement le P-DQN et d'autres algorithmes précédents en termes d'efficacité des données et de performance de la politique convergente dans les domaines Platform, Robot Soccer Goal et Half Field Offense.