TransFusion: Robuste LiDAR-Kamera-Fusion für die 3D-Objekterkennung mit Transformers

LiDAR und Kamera sind zwei zentrale Sensoren für die 3D-Objekterkennung im autonomen Fahren. Trotz der zunehmenden Beliebtheit von Sensorfusion in diesem Bereich bleibt die Robustheit gegenüber schlechten Bildbedingungen – beispielsweise ungünstiger Beleuchtung oder Sensorverschiebungen – untererforscht. Bestehende Fusionmethoden sind leicht durch solche Bedingungen beeinträchtigt, hauptsächlich aufgrund einer starren Zuordnung zwischen LiDAR-Punkten und Bildpixeln, die durch Kalibrierungsmatrizen festgelegt wird. Wir stellen TransFusion vor, eine robuste Lösung für die LiDAR-Kamera-Fusion mit einem weichen-Assoziationsmechanismus zur Bewältigung schlechter Bildqualität. Konkret besteht TransFusion aus konvolutionellen Backbone-Netzwerken und einem Detektionskopf basierend auf einem Transformer-Decoder. Die erste Schicht des Decoders erzeugt anhand einer sparsen Menge von Objekt-Queries aus einer LiDAR-Punktwolke zunächst bounding boxes, während die zweite Decoder-Schicht die Objekt-Queries adaptiv mit nützlichen Bildmerkmalen fusioniert und dabei sowohl räumliche als auch kontextuelle Beziehungen nutzt. Durch die Aufmerksamkeitsmechanismen des Transformers kann unser Modell adaptiv bestimmen, welche Informationen aus dem Bild und an welcher Stelle genutzt werden sollen, was zu einer robusten und effektiven Fusionsstrategie führt. Zusätzlich entwickeln wir eine bildgesteuerte Initialisierungsstrategie für die Queries, um Objekte zu erfassen, die in der Punktwolke schwer detektierbar sind. TransFusion erreicht Spitzenleistung auf großskaligen Datensätzen. Wir präsentieren umfangreiche Experimente, die ihre Robustheit gegenüber vermindelter Bildqualität und Kalibrierungsfehlern belegen. Darüber hinaus erweitern wir die vorgeschlagene Methode auf die 3D-Verfolgungsaufgabe und erreichen den ersten Platz in der Leaderboard des nuScenes-Tracking-Wettbewerbs, was die Wirksamkeit und Verallgemeinerungsfähigkeit des Ansatzes unterstreicht.