HyperAIHyperAI
vor 7 Tagen

Multi-Modal-Fusions-Transformer für autonome Fahrt von Ende zu Ende

Aditya Prakash, Kashyap Chitta, Andreas Geiger
Multi-Modal-Fusions-Transformer für autonome Fahrt von Ende zu Ende
Abstract

Wie sollten Darstellungen aus komplementären Sensoren für autonome Fahrzeuge integriert werden? Geometriebasierte Sensorfusion hat großes Potenzial für Perzeptionsaufgaben wie Objekterkennung und Bewegungsprognose gezeigt. Für die eigentliche Fahraufgabe ist jedoch der globale Kontext der dreidimensionalen Szene entscheidend – beispielsweise kann eine Änderung des Verkehrslichtzustands das Verhalten eines Fahrzeugs beeinflussen, das geometrisch weit entfernt vom Licht ist. Geometrie allein ist daher möglicherweise nicht ausreichend, um Darstellungen effektiv in end-to-end-Fahrsystemen zu fusionieren. In dieser Arbeit zeigen wir, dass Nachahmungslernpolitiken, die auf bestehenden Sensorfusionstechniken basieren, bei hoher Dichte dynamischer Agenten und komplexen Szenarien unterperformen, die globale kontextuelle Schlussfolgerung erfordern, wie beispielsweise die Behandlung von Verkehr aus mehreren Richtungen an unkontrollierten Kreuzungen. Daher stellen wir TransFuser vor, einen neuartigen Multi-Modalen Fusions-Transformer, der Bilddarstellungen und LiDAR-Daten mittels Aufmerksamkeit integriert. Wir validieren experimentell die Wirksamkeit unseres Ansatzes in städtischen Umgebungen mit komplexen Szenarien mithilfe des CARLA-Stadtverkehrssimulators. Unser Ansatz erreicht state-of-the-art-Fahreigenschaften und reduziert Kollisionen im Vergleich zur geometriebasierten Fusion um 76 %.