Command Palette
Search for a command to run...
GMF-Drive: Gated Mamba Fusion mit räumlich-awareer BEV-Darstellung für End-to-End-Autonomes Fahren
GMF-Drive: Gated Mamba Fusion mit räumlich-awareer BEV-Darstellung für End-to-End-Autonomes Fahren
Jian Wang Chaokang Jiang Haitao Xu
Zusammenfassung
Diffusionsbasierte Modelle definieren derzeit die State-of-the-Art-Leistung in end-to-end-autonomen Fahrsystemen, werden jedoch zunehmend durch ihre Abhängigkeit von Transformer-basierten Fusionen beeinträchtigt. Diese Architekturen stoßen auf fundamentale Grenzen: Ihre quadratische rechnerische Komplexität begrenzt die Nutzung hochauflösender Merkmale, und der Fehlen von räumlichen Vorwissen verhindert eine effektive Modellierung der inhärenten Struktur von Bird’s-Eye-View (BEV)-Darstellungen. In dieser Arbeit stellen wir GMF-Drive (Gated Mamba Fusion for Driving) vor, einen end-to-end-Framework, der diese Herausforderungen durch zwei begründete Innovationen überwindet. Erstens ersetzen wir die informationsarmen, histogrammbasierten LiDAR-Darstellungen durch ein geometrisch erweitertes Säulenformat, das Formbeschreiber und statistische Merkmale kodiert und somit entscheidende 3D-geometrische Details bewahrt. Zweitens schlagen wir eine neuartige hierarchische, gated Mamba-Fusion (GM-Fusion) Architektur vor, die einen rechenintensiven Transformer durch ein hoch-effizientes, räumlich-aware State-Space-Modell (SSM) ersetzt. Unser zentrales BEV-SSM nutzt gerichtete Sequenzierung und adaptive Fusionsmechanismen, um langreichweitige Abhängigkeiten mit linearer Komplexität zu erfassen, während gleichzeitig die spezifischen räumlichen Eigenschaften der Fahrszene explizit berücksichtigt werden. Umfangreiche Experimente auf der anspruchsvollen NAVSIM-Benchmark zeigen, dass GMF-Drive eine neue State-of-the-Art-Leistung erreicht und DiffusionDrive deutlich übertrifft. Umfassende Ablationsstudien bestätigen die Wirksamkeit jedes einzelnen Bausteins und belegen, dass spezifische SSMs für die jeweilige Aufgabe sowohl in Bezug auf Leistung als auch Effizienz einen allgemein verwendbaren Transformer im Kontext autonomer Fahrsysteme überbieten können.