DriveTransformer: Unified Transformer für skalierendes end-to-end autonomes Fahren

End-to-End-Autonomes Fahren (E2E-AD) ist zu einem zentralen Trend im Bereich autonomes Fahren geworden und verspricht einen datengetriebenen, skalierbaren Ansatz für die Systemgestaltung. Allerdings verwenden bestehende E2E-AD-Methoden in der Regel das sequenzielle Paradigma aus Wahrnehmung–Vorhersage–Planung, was zu kumulativen Fehlern und instabiler Trainierung führt. Die manuelle Reihenfolge der Aufgaben begrenzt zudem die Fähigkeit des Systems, Synergien zwischen den Aufgaben auszunutzen (beispielsweise planungsorientierte Wahrnehmung oder spieltheoretisch fundierte interaktive Vorhersage und Planung). Darüber hinaus verursacht die dichte BEV-Darstellung, die von bestehenden Ansätzen verwendet wird, erhebliche Rechenaufwendungen für die Langstreckenwahrnehmung und die langfristige zeitliche Fusion. Um diese Herausforderungen zu bewältigen, stellen wir DriveTransformer vor – einen vereinfachten E2E-AD-Framework, der die Skalierbarkeit erleichtert und sich durch drei zentrale Merkmale auszeichnet: Aufgaben-Parallelität (alle Agenten-, Karten- und Planungsabfragen interagieren direkt miteinander in jedem Block), Sparse Darstellung (die Aufgabenabfragen interagieren direkt mit den Rohsensordaten) und Streaming-Verarbeitung (die Aufgabenabfragen werden als Historie gespeichert und weitergegeben). Dadurch besteht das neue Framework aus drei einheitlichen Operationen: Aufgaben-Selbst-Attention, Sensor-Kreuz-Attention und zeitliche Kreuz-Attention, was die Systemkomplexität erheblich reduziert und zu einer besseren Trainierbarkeit führt. DriveTransformer erreicht sowohl im simulierten geschlossenen Schleifen-Benchmark Bench2Drive als auch im realen offenen Schleifen-Benchmark nuScenes Spitzenleistungen bei hoher FPS-Zahl.