CarLLaVA: Visuelle Sprachmodelle für die geschlossene Regelstrecke beim rein kamera-basierten Fahren

In diesem technischen Bericht stellen wir CarLLaVA vor, ein Visuelles Sprachmodell (VLM) für autonomes Fahren, das für die CARLA Autonomous Driving Challenge 2.0 entwickelt wurde. CarLLaVA nutzt den visuellen Encoder des LLaVA-VLM und die LLaMA-Architektur als Grundstruktur, wodurch es mit nur Kameraeingang und ohne die Notwendigkeit komplexer oder teurer Labels eine Spitzenleistung im geschlossenen Regelkreis-Fahrverhalten erzielt. Darüber hinaus zeigen wir vorläufige Ergebnisse zur Vorhersage sprachlicher Kommentare neben der Fahrzeugausgabe. CarLLaVA verwendet eine halb-disentagierte Ausgabendarstellung sowohl für Pfadvorhersagen als auch für Wegpunkte, wodurch es die Vorteile des Pfades für eine bessere Querrichtungskontrolle und der Wegpunkte für eine bessere Längsrichtungskontrolle nutzen kann. Wir schlagen ein effizientes Trainingsrezept vor, um auf großen Fahrdatensätzen zu trainieren, ohne Rechenkapazitäten an einfache, triviale Daten zu verschwenden. CarLLaVA belegt den ersten Platz im Sensor-Track der CARLA Autonomous Driving Challenge 2.0 und übertrifft den bisherigen Stand der Technik um 458 % sowie die beste gleichzeitige Einreichung um 32,6 %.