Apprendre à conduire dans un monde sur rails

Nous apprenons une politique de conduite interactive basée sur la vision à partir de journaux de conduite pré-enregistrés grâce à une approche fondée sur un modèle. Un modèle prédictif du monde supervise une politique de conduite qui anticipe le résultat de toute trajectoire potentielle de conduite. Pour faciliter l'apprentissage à partir de journaux pré-enregistrés, nous supposons que le monde est « sur rails », c'est-à-dire que ni l'agent ni ses actions n'influencent l'environnement. Cette hypothèse simplifie considérablement le problème d'apprentissage, en factorisant la dynamique en un modèle du monde non réactif et un modèle prédictif de faible dimension et compact de l'égo-véhicule (ego-vehicle). Notre méthode calcule les valeurs d'action pour chaque trajectoire d'entraînement en utilisant une évaluation par programmation dynamique tabulaire des équations de Bellman ; ces valeurs d'action supervisent ensuite la politique finale de conduite basée sur la vision. Malgré l'hypothèse du monde « sur rails », la politique finale de conduite se comporte bien dans un monde dynamique et réactif. Au moment où nous écrivons ces lignes, notre méthode occupe la première place du classement CARLA, obtenant un score de conduite 25% plus élevé tout en utilisant 40 fois moins de données. Notre méthode est également d'un ordre de grandeur plus efficace en termes d'échantillonnage que les techniques d'apprentissage par renforcement sans modèle les plus avancées pour les tâches de navigation dans le benchmark ProcGen.