HyperAIHyperAI
vor 11 Tagen

MVFusion: Multi-View 3D Object Detection mit semantisch ausgerichteter Radar- und Kamerasensorfusion

Zizhang Wu, Guilian Chen, Yuanzhu Gan, Lei Wang, Jian Pu
MVFusion: Multi-View 3D Object Detection mit semantisch ausgerichteter Radar- und Kamerasensorfusion
Abstract

Die mehrsichtige Radarsensor-Kamera-Fusion für die 3D-Objekterkennung bietet eine größere Detektionsreichweite und wertvollere Merkmale für autonomes Fahren, insbesondere unter ungünstigen Wetterbedingungen. Die derzeitigen Ansätze zur Radarsensor-Kamera-Fusion unterscheiden sich durch verschiedene Architekturen, um Radardaten mit Kamerainformationen zu kombinieren. Allerdings verwenden diese Fusionstechniken häufig eine einfache Verkettung von multimodalen Merkmalen, wodurch die semantische Ausrichtung zwischen Radardaten und die ausreichende Korrelation zwischen den Modalitäten vernachlässigt werden. In diesem Artikel stellen wir MVFusion vor – einen neuartigen Ansatz zur mehrsichtigen Radarsensor-Kamera-Fusion, der semantisch ausgerichtete Radardaten erzeugt und die intermodale Informationsinteraktion verbessert. Dazu integrieren wir die semantische Ausrichtung direkt in die Radardaten mittels eines semantisch ausgerichteten Radarencoders (SARE), um bildgesteuerte Radardaten zu generieren. Anschließend schlagen wir den radarbasierten Fusions-Transformer (RGFT) vor, der unsere Radardaten und Bildmerkmale fusioniert, um die Korrelation beider Modalitäten auf globaler Ebene durch einen Cross-Attention-Mechanismus zu verstärken. Umfangreiche Experimente zeigen, dass MVFusion eine state-of-the-art-Leistung (51,7 % NDS und 45,3 % mAP) auf dem nuScenes-Datensatz erzielt. Wir werden unseren Code und die trainierten Modelle nach der Veröffentlichung zugänglich machen.

MVFusion: Multi-View 3D Object Detection mit semantisch ausgerichteter Radar- und Kamerasensorfusion | Neueste Forschungsarbeiten | HyperAI