GPT-Driver: Lernen zu Fahren mit GPT

Wir präsentieren einen einfachen, aber effektiven Ansatz, der es ermöglicht, das OpenAI GPT-3.5-Modell in einen zuverlässigen Bewegungsplaner für autonome Fahrzeuge zu transformieren. Die Bewegungsplanung stellt eine zentrale Herausforderung im Bereich des autonomen Fahrens dar und zielt darauf ab, eine sichere und komfortable Fahrtrajektorie zu generieren. Bisherige Bewegungsplaner stützen sich überwiegend auf heuristische Methoden zur Vorhersage von Fahrtrajektorien, die jedoch bei neuen und unerwarteten Fahrsituationen eine unzureichende Generalisierungsfähigkeit aufweisen. In diesem Paper stellen wir einen neuartigen Ansatz zur Bewegungsplanung vor, der die starken Schlussfolgerungsfähigkeiten und das Generalisierungspotenzial von Großsprachmodellen (Large Language Models, LLMs) nutzt. Der entscheidende Einblick unseres Ansatzes liegt in der Umformulierung der Bewegungsplanung als Sprachmodellierungsproblem – eine Perspektive, die bisher nicht untersucht wurde. Konkret repräsentieren wir die Eingaben und Ausgaben des Planers als Sprachtokens und nutzen das LLM, um Fahrtrajektorien durch eine sprachliche Beschreibung von Koordinatenpositionen zu generieren. Darüber hinaus schlagen wir eine neuartige Prompting-Reasoning-Finetuning-Strategie vor, um das numerische Schließungsvermögen des LLMs zu aktivieren. Mit dieser Strategie kann das LLM nicht nur hochpräzise Koordinaten der Trajektorie beschreiben, sondern auch seinen internen Entscheidungsprozess in natürlicher Sprache erläutern. Wir evaluieren unseren Ansatz am großen nuScenes-Datensatz, und umfangreiche Experimente bestätigen die Wirksamkeit, Generalisierungsfähigkeit und Interpretierbarkeit unseres auf GPT basierenden Bewegungsplaners. Der Quellcode ist nun unter https://github.com/PointsCoder/GPT-Driver verfügbar.