GRI : Imitation Généralisée Renforcée et son Application à la Conduite Autonome Basée sur la Vision

L'apprentissage par renforcement profond (DRL) a fait ses preuves dans plusieurs applications complexes de prise de décision, telles que la conduite autonome et la robotique. Cependant, le DRL est notoirement limité par sa forte complexité échantillonnale et son manque de stabilité. Les connaissances préalables, par exemple sous forme de démonstrations d'experts, sont souvent disponibles mais difficiles à exploiter pour atténuer ces problèmes. Dans cet article, nous proposons l'Apprentissage Imitatif Renforcé Général (GRI), une nouvelle méthode qui combine les avantages de l'exploration et des données d'experts, et qui peut être facilement mise en œuvre sur n'importe quel algorithme d'apprentissage par renforcement hors-politique (off-policy). Nous faisons une hypothèse simplificatrice : les démonstrations d'experts peuvent être considérées comme des données parfaites dont la politique sous-jacente reçoit une récompense constamment élevée. Sur cette base, le GRI introduit le concept d'agents de démonstration hors-ligne. Ces agents transmettent des données d'experts qui sont traitées simultanément et indistinctement avec les expériences provenant de l'agent d'exploration en ligne du RL. Nous montrons que notre approche permet des améliorations majeures dans la conduite autonome basée sur la vision dans les environnements urbains. Nous validons davantage la méthode GRI sur des tâches de contrôle continu Mujoco avec différents algorithmes d'apprentissage par renforcement hors-politique. Notre méthode s'est classée première au classement CARLA et surpassait World on Rails, l'état de l'art précédent, avec une performance supérieure de 17 %.