LatentVLA: Latente Reasoning-Modelle für autonomes Fahren
Das autonome Fahren steht vor der Herausforderung, wie Fahrzeuge komplexe Situationen verstehen und reagieren sollen. Während Modelle wie AlpamayoR1 auf natürlichem Sprachtext als Denkgerüst basieren, was oft ineffizient ist und umfangreiche Datensätze erfordert, stellt LatentVLA einen alternativen Ansatz vor. Dieses Modell verzichtet auf Sprachdaten und führt logische Schlussfolgerungen stattdessen im latenten Raum durch, um Echtzeitanforderungen zu erfüllen. Der Kern von LatentVLA liegt im „Latent Action Learning". Anstatt sich auf manuell annotierte Ursache-Wirkungs-Ketten zu verlassen, die industriellen Aufwand erfordern, nutzt LatentVLA ungelabelte Rohdaten. Das Modell lernt aus den Bildern selbst, welche Aktionen der Fahrer getroffen haben muss, um den beobachteten Zustandsübergang zu bewirken. Dies geschieht über ein Encoder-Decoder-Framework. Ein Invers-Dynamik-Modell (Encoder) sagt aus zwei aufeinanderfolgenden Bildern einen kontinuierchen Aktionsvektor voraus, während ein Vorwärtsdynamik-Modell (Decoder) versucht, das nächste Bild basierend auf dem aktuellen Bild und dieser Aktion zu rekonstruieren. Um diese kontinuierlichen Vektoren für Sprachmodelle (VLMs) nutzbar zu machen, werden sie durch ein VQ-VAE in diskrete Codebuch-Einträge quantisiert. Ein entscheidendes Problem ist dabei die Trennung von Fahrerhandlungen und Umweltdynamiken. Ein Vogel im Bild oder Wind dürfen nicht als Fahrermanöver interpretiert werden. LatentVLA löst dies durch eine zweistufige Encoder-Decoder-Architektur. In der ersten Stufe wird eine „Umweltaktion" berechnet, die nur die nicht durch den Fahrer beeinflussten Veränderungen des Bildes modelliert. In der zweiten Stufe, basierend auf der zuvor berechneten Umweltaktion, wird die tatsächliche „Fahreraktion" extrahiert. Diese Trennung sorgt dafür, dass das Modell lernt, nur die relevanten Steuerungsbefehle zu erkennen. Basierend auf diesen diskreten latenten Aktionen trainieren die Autoren ein großes Qwen2.5-VL-Modell, diese Aktionen vorherzusagen. Im Gegensatz zu anderen Systemen, die Codebücher mit über 2000 Token verwenden, nutzt LatentVLA lediglich 16 Token. Dies erlaubt es dem Modell, hochgradige Anweisungen wie „leicht beschleunigen" zu lernen, anstatt winzige Winkelabweichungen. Dies bewahrt das Vorwissen des Sprachmodells und vereinfacht den Lernprozess. Um die Performance für den Einsatz in Echtzeit zu sichern, kommt eine Wissensdistillation zum Einsatz. Ein kleineres 50-Millionen-Parameter-Modell wird trainiert, das Verhalten des großen 3,8-Milliarden-Parameter-Sprachmodells nachzuahmen. Ein Fusionsmodul integriert dabei die visuellen und aktionsbasierten Einbettungen des VLMs in bestehende End-to-End-Architekturen, um deren Entscheidungsfindung zu verbessern. In der Evaluation auf dem NavSim-Datensatz erzielte LatentVLA Ergebnisse, die staat-of-the-art Modelle übertreffen. Allerdings waren die Verbesserungen gegenüber reinen End-to-End-Baselines nur geringfügig: Während das Basismodell einen Score von 91,7 erreichte, lag das distillierte LatentVLA bei 92,1. Die Autoren kritisieren diese Bewertungsmethode, da sie auf offener Schleife basiert. Das bedeutet, dass das Modell eine Trajektorie vorhersagt, ohne auf die Reaktionen anderer Verkehrsteilnehmer zu reagieren. Solche Simulationen unterschätzen möglicherweise die Fähigkeiten von Modellen, die über tiefere logische Schlussfolgerungen verfügen, da diese erst in interaktiven, geschlossenen Schleifen ihre Vorteile gegenüber reinem Imitationslernen voll ausspielen können. Zusammenfassend bietet LatentVLA einen innovativen Weg, VLM-Wissen ohne natürliche Sprache in autonome Fahrsysteme zu integrieren. Es demonstriert, dass nützliche Repräsentationen aus ungelabelten Daten gelernt werden können. Für eine vollständige Bewertung der Leistungsfähigkeit in realen Szenarien sind jedoch zukünftig Tests in interaktiven, geschlossenen Simulationen notwendig, um das volle Potenzial dieses Ansatzes zu erkennen.
