il y a 2 mois

Représentation d'actions discrètes et continues pour le RL pratique dans les jeux vidéo

Olivier Delalleau; Maxim Peter; Eloi Alonso; Adrien Logut

Résumé

Bien que la plupart des recherches actuelles en Apprentissage par Renforcement (AR) se concentrent sur l'amélioration des performances des algorithmes dans des environnements contrôlés, l'utilisation de l'AR sous des contraintes similaires à celles rencontrées dans l'industrie du jeu vidéo est rarement étudiée. Dans ce contexte de contraintes, nous proposons Hybrid SAC, une extension de l'algorithme Soft Actor-Critic capable de gérer les actions discrètes, continues et paramétrées de manière rigoureuse. Nous démontrons que Hybrid SAC peut résoudre avec succès une tâche de conduite à haute vitesse dans l'un de nos jeux, et qu'il est compétitif avec les méthodes les plus avancées sur les tâches de référence impliquant des actions paramétrées. Nous explorons également l'impact de l'utilisation des flux normalisants pour enrichir l'expressivité de la politique avec un coût computationnel minimal, et identifions un effet potentiellement indésirable de SAC lorsqu'il est utilisé avec des flux normalisants, qui pourrait être atténué en optimisant un objectif différent.