HyperAIHyperAI
vor 3 Monaten

Robuste multimodale 3D-Objekterkennung mittels modality-agnostischem Decoding und modality-basiertem Ensemble auf der Grundlage von Nähe

Juhan Cha, Minseok Joo, Jihwan Park, Sanghyeok Lee, Injae Kim, Hyunwoo J. Kim
Robuste multimodale 3D-Objekterkennung mittels modality-agnostischem Decoding und modality-basiertem Ensemble auf der Grundlage von Nähe
Abstract

Neuere Fortschritte in der 3D-Objekterkennung profitieren von multimodalen Informationen aus mehreren Kamerasichtfeldern und LiDAR-Sensoren. Dennoch stellen die inhärenten Unterschiede zwischen den Modalitäten erhebliche Herausforderungen dar. Wir beobachten, dass bestehende multimodale Ansätze zur 3D-Objekterkennung stark auf den LiDAR-Sensor angewiesen sind und die Kamera lediglich als ergänzende Modality zur Verbesserung semantischer Details betrachten. Dies führt häufig nicht nur zu einer Unterausnutzung der Kamerasignale, sondern auch zu einer erheblichen Leistungsverschlechterung in Szenarien, in denen LiDAR-Daten nicht verfügbar sind. Zudem ignorieren bestehende Fusionsmethoden den schädlichen Einfluss von Sensorrauschen, das durch Umweltveränderungen verursacht wird, auf die Erkennungsleistung. In diesem Paper stellen wir MEFormer vor, um das Problem der übermäßigen Abhängigkeit von LiDAR zu lösen, indem wir kritische Informationen für die 3D-Objekterkennung aus jeder verfügbaren Modality nutzbar machen, gleichzeitig aber auch vor gestörten Signalen während des Fusionsprozesses schützen. Konkret führen wir Modality Agnostic Decoding (MOAD) ein, das geometrische und semantische Merkmale mit einem gemeinsamen Transformer-Decoder extrahiert, unabhängig von der Eingabemodality, und sowohl bei einzelnen als auch bei multimodalen Eingaben eine signifikante Verbesserung erzielt. Darüber hinaus integrieren wir das Proximity-based Modality Ensemble (PME)-Modul, das die Stärken jeder Modality je nach Umgebung adaptiv nutzt und gleichzeitig die Auswirkungen eines verrauschten Sensors minimiert. MEFormer erreicht eine state-of-the-art-Leistung von 73,9 % NDS und 71,5 % mAP auf dem nuScenes-Validierungssatz. Ausführliche Analysen bestätigen, dass MEFormer die Robustheit gegenüber anspruchsvollen Bedingungen wie Sensorausfällen oder Umweltveränderungen verbessert. Der Quellcode ist unter https://github.com/hanchaa/MEFormer verfügbar.