Command Palette
Search for a command to run...
Alpamayo-R1: Brückenbildung zwischen Schlussfolgern und Aktionssvorhersage für verallgemeinerungsfähiges autonomes Fahren im Long Tail
Alpamayo-R1: Brückenbildung zwischen Schlussfolgern und Aktionssvorhersage für verallgemeinerungsfähiges autonomes Fahren im Long Tail
Abstract
End-to-End-Architekturen, die mittels Nachahmungslernen trainiert wurden, haben die Entwicklung autonomer Fahrzeuge durch Skalierung von Modellgröße und Daten vorangetrieben. Dennoch bleibt ihre Leistung in sicherheitskritischen, langen-Schwanz-Szenarien brüchig, in denen die Aufsicht spärlich ist und ein kausales Verständnis begrenzt ist. Um diesem Problem zu begegnen, stellen wir Alpamayo-R1 (AR1) vor – ein Vision-Language-Action-Modell (VLA), das die Kette der Kausalität mit der Trajektorienplanung verbindet, um die Entscheidungsfindung in komplexen Fahrszenarien zu verbessern. Unser Ansatz zeichnet sich durch drei zentrale Innovationen aus: (1) den Chain-of-Causation-(CoC)-Datensatz, der durch eine hybride, automatisierte Etikettierung mit menschlicher Mitwirkung erstellt wurde und Entscheidungsgrundlagen mit kausal verknüpften Schlussfolgerungstraces liefert, die den Fahrverhalten entsprechen; (2) eine modulare VLA-Architektur, die Cosmos-Reason – ein vision-sprachliches Modell, das für Anwendungen im Bereich Physical AI vortrainiert wurde – mit einem Diffusions-basierten Trajektoriendekoder kombiniert, der dynamisch realisierbare Pläne in Echtzeit generiert; (3) eine mehrstufige Trainingsstrategie, die Supervised Fine-Tuning nutzt, um Schlussfolgerungen zu aktivieren, und Verstärkendes Lernen (RL), um die Qualität der Schlussfolgerungen durch Feedback großer Schlussfolgerungsmodelle zu optimieren und die Konsistenz zwischen Schlussfolgerung und Aktion zu gewährleisten. Evaluierungen zeigen, dass AR1 im Vergleich zu einem rein auf Trajektorien basierenden Basismodell eine bis zu 12 % höhere Planungsgenauigkeit bei anspruchsvollen Fällen erreicht, bei gleichzeitig 35 % geringerer Abweichungsrate von der Fahrbahn und 25 % geringerer Rate engen Begegnungen in geschlossenen Schleifen-Simulationen. Die Nachtrainierung mittels RL verbessert die Qualität der Schlussfolgerungen um 45 %, gemessen durch einen großen Schlussfolgerungsmodell-Kritiker, und die Konsistenz zwischen Schlussfolgerung und Aktion um 37 %. Die Skalierung des Modells von 0,5 B auf 7 B Parameter zeigt konsistente Verbesserungen. Fahrversuche im realen Straßenverkehr bestätigen die Echtzeitfähigkeit (99 ms Latenz) und den erfolgreichen Einsatz in städtischen Umgebungen. Durch die Verbindung interpretierbarer Schlussfolgerung mit präziser Steuerung demonstriert AR1 einen praktikablen Weg hin zu Level-4-Autonomie. Wir planen, die AR1-Modelle sowie eine Teilmenge des CoC-Datensatzes in einem zukünftigen Update freizugeben.