HyperAI
vor 17 Stunden

Eine Übersicht über Vision-Sprache-Aktion-Modelle für autonome Fahrzeuge

Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong
Eine Übersicht über Vision-Sprache-Aktion-Modelle für autonome Fahrzeuge
Abstract

Der rasche Fortschritt multimodaler großer Sprachmodelle (MLLM) hat den Weg für Vision-Sprache-Aktion (VLA)-Paradigmen geebnet, die visuelle Wahrnehmung, natürliche Sprachverarbeitung und Kontrolle in einer einzigen Politik integrieren. Forscher im Bereich autonomes Fahren passen diese Methoden aktiv an das Fahrzeugdomäne an. Solche Modelle versprechen autonome Fahrzeuge, die hochwertige Anweisungen interpretieren, komplexe Verkehrsszenarien analysieren und eigene Entscheidungen treffen können. Dennoch bleibt die Literatur fragmentiert und wächst rasant. Diese Übersicht bietet erstmals eine umfassende Darstellung von VLA für autonomes Fahren (VLA4AD). Wir (i) formalisieren die architektonischen Bausteine, die in jüngsten Arbeiten gemeinsam sind, (ii) verfolgen die Entwicklung von frühen Erklärungsmodellen zu verständniszentrierten VLA-Modellen und (iii) vergleichen über 20 repräsentative Modelle hinsichtlich des Fortschritts von VLA im Bereich autonomes Fahren. Zudem konsolidieren wir vorhandene Datensätze und Benchmarks und betonen Protokolle, die gemeinsam die Fahrsicherheit, Genauigkeit und Erklärungsqualität bewerten. Schließlich beschreiben wir offene Herausforderungen – Robustheit, Echtzeit-Effizienz und formale Verifizierung – und skizzieren zukünftige Entwicklungsrichtungen von VLA4AD. Diese Übersicht bietet eine prägnante aber vollständige Referenz zur Förderung interpretierbarer sozial ausgerichteter autonomer Fahrzeuge. Das Github-Repository ist unter \href{dieser URL}{SicongJiang/Awesome-VLA4AD} verfügbar. 请注意,由于Markdown中的\href命令在德语中同样使用,因此保留了原始格式。如果您需要进一步调整,请告知。