GPT-Driver : Apprendre à conduire avec GPT

Nous présentons une approche simple mais efficace permettant de transformer le modèle OpenAI GPT-3.5 en planificateur de mouvement fiable pour les véhicules autonomes. La planification du mouvement constitue un défi central dans la conduite autonome, visant à concevoir une trajectoire de conduite sûre et confortable. Les planificateurs de mouvement existants s'appuient principalement sur des méthodes heuristiques pour prédire les trajectoires de conduite, mais ces approches présentent une capacité de généralisation insuffisante face à des scénarios de conduite nouveaux ou inédits. Dans ce travail, nous proposons une nouvelle approche de planification du mouvement qui exploite les puissantes capacités de raisonnement et le potentiel de généralisation intrinsèques aux grands modèles linguistiques (Large Language Models, LLM). L'idée fondamentale de notre méthode consiste à reformuler le problème de planification du mouvement comme un problème de modélisation linguistique, une perspective jamais explorée auparavant. Plus précisément, nous représentons les entrées et sorties du planificateur sous forme de tokens linguistiques, et utilisons le LLM pour générer des trajectoires de conduite à partir d'une description linguistique des positions coordonnées. En outre, nous proposons une nouvelle stratégie de « prompting-raisonnement-finetuning » visant à activer le potentiel de raisonnement numérique du LLM. Grâce à cette stratégie, le LLM peut non seulement décrire des coordonnées de trajectoire avec une précision élevée, mais aussi expliquer, en langage naturel, son propre processus décisionnel interne. Nous évaluons notre approche sur le grand jeu de données nuScenes, et des expériences étendues confirment l'efficacité, la capacité de généralisation et l'interprétabilité de notre planificateur de mouvement basé sur GPT. Le code est désormais disponible à l'adresse suivante : https://github.com/PointsCoder/GPT-Driver.