Command Palette
Search for a command to run...
OmniDrive: Ein umfassender visueller und sprachlicher Datensatz für autonome Fahrzeuge mit kontrafaktischem Schließen
Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

Abstract
Die Fortschritte in visuellen Sprachmodellen (VLMs) haben das Interesse an autonomen Fahrzeugen geweckt, um ihre starken Schließleistungsfähigkeiten zu nutzen. Allerdings ist die Erweiterung dieser Fähigkeiten von 2D auf eine vollständige 3D-Wahrnehmung für praktische Anwendungen entscheidend. Um dieser Herausforderung gerecht zu werden, schlagen wir OmniDrive vor, ein umfassendes visuelles Sprachdatensatz, der Agentenmodelle durch kontrafaktisches Schließen mit 3D-Fahrzeugaufgaben ausrichtet. Dieser Ansatz verbessert die Entscheidungsfindung, indem er potenzielle Szenarien und deren Ausgänge evaluiert, ähnlich wie menschliche Fahrer alternative Aktionen in Betracht ziehen. Unser kontrafaktikbasiertes Verfahren zur synthetischen Datenaufbereitung generiert groß angelegte, hochwertige Datensätze, die dichtere Supervisionsignale liefern und so Planungstrajectorien und sprachbasierte Schlussfolgerungen verbinden. Des Weiteren untersuchen wir zwei fortgeschrittene OmniDrive-Agentenframeworks, nämlich Omni-L und Omni-Q, um die Bedeutung der Ausrichtung von visueller Sprache gegenüber 3D-Wahrnehmung zu bewerten. Kritische Erkenntnisse für den Entwurf effektiver LLM-Agenten werden dabei offengelegt. Substantielle Verbesserungen am DriveLM Q&A-Benchmark und bei nuScenes off-loop-Planung belegen die Effektivität unseres Datensatzes und unserer Methoden.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.