HyperAIHyperAI

Command Palette

Search for a command to run...

CarLLaVA: Visuelle Sprachmodelle für die geschlossene Regelstrecke beim rein kamera-basierten Fahren

Katrin Renz Long Chen Ana-Maria Marcu Jan Hünermann Benoit Hanotte Alice Karnsund Jamie Shotton Elahe Arani Oleg Sinavski

Zusammenfassung

In diesem technischen Bericht stellen wir CarLLaVA vor, ein Visuelles Sprachmodell (VLM) für autonomes Fahren, das für die CARLA Autonomous Driving Challenge 2.0 entwickelt wurde. CarLLaVA nutzt den visuellen Encoder des LLaVA-VLM und die LLaMA-Architektur als Grundstruktur, wodurch es mit nur Kameraeingang und ohne die Notwendigkeit komplexer oder teurer Labels eine Spitzenleistung im geschlossenen Regelkreis-Fahrverhalten erzielt. Darüber hinaus zeigen wir vorläufige Ergebnisse zur Vorhersage sprachlicher Kommentare neben der Fahrzeugausgabe. CarLLaVA verwendet eine halb-disentagierte Ausgabendarstellung sowohl für Pfadvorhersagen als auch für Wegpunkte, wodurch es die Vorteile des Pfades für eine bessere Querrichtungskontrolle und der Wegpunkte für eine bessere Längsrichtungskontrolle nutzen kann. Wir schlagen ein effizientes Trainingsrezept vor, um auf großen Fahrdatensätzen zu trainieren, ohne Rechenkapazitäten an einfache, triviale Daten zu verschwenden. CarLLaVA belegt den ersten Platz im Sensor-Track der CARLA Autonomous Driving Challenge 2.0 und übertrifft den bisherigen Stand der Technik um 458 % sowie die beste gleichzeitige Einreichung um 32,6 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp