TransFuser: Imitation mit transformer-basierter Sensorfusion für autonomes Fahren

Wie sollten wir Darstellungen von ergänzenden Sensoren für autonomes Fahren integrieren? Geometrie-basierte Fusion hat bei der Wahrnehmung (z.B. Objekterkennung, Bewegungsvorhersage) vielversprechende Ergebnisse gezeigt. Im Kontext des end-to-end-Fahrens stellen wir jedoch fest, dass Imitationslernen auf Basis bestehender Sensorfusionmethoden in komplexen Fahrzeugbewegungsszenarien mit hoher Dichte dynamischer Agenten unterdurchschnittlich abschneidet. Deshalb schlagen wir TransFuser vor, ein Mechanismus zur Integration von Bild- und LiDAR-Darstellungen mithilfe von Selbst-Aufmerksamkeit. Unser Ansatz verwendet Transformer-Module in mehreren Auflösungen, um perspektivische Ansichten und Vogelperspektive-Featuremaps zu fusionieren. Wir validieren seine Effektivität experimentell an einem anspruchsvollen neuen Benchmark mit langen Strecken und dichtem Verkehr sowie am offiziellen Ranglistenplatz des CARLA-Stadtverkehrsimulators. Zum Zeitpunkt der Einreichung übertrifft TransFuser alle bisherigen Arbeiten im CARLA-Ranglistenplatz hinsichtlich der Fahrleistung erheblich. Verglichen mit geometrie-basierter Fusion reduziert TransFuser die durchschnittliche Anzahl von Kollisionen pro Kilometer um 48 %.