HyperAIHyperAI
vor 3 Monaten

BEVFusion: Multi-Task Multi-Sensor Fusion mit einheitlicher Bird’s-Eye-View-Darstellung

Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han
BEVFusion: Multi-Task Multi-Sensor Fusion mit einheitlicher Bird’s-Eye-View-Darstellung
Abstract

Die Multi-Sensor-Fusion ist entscheidend für ein genaues und zuverlässiges autonomes Fahren. Neuere Ansätze basieren auf Punkt-Level-Fusion: die LiDAR-Punktwolke wird mit Kammermerkmalen erweitert. Allerdings führt die Projektion von Kammermerkmalen auf die LiDAR-Daten zu einem Verlust der semantischen Dichte der Kammerinformationen, was die Effektivität solcher Methoden, insbesondere bei semantikorientierten Aufgaben (wie der 3D-Szenen-Segmentierung), erheblich beeinträchtigt. In diesem Artikel brechen wir diese tief verwurzelte Konvention mit BEVFusion, einem effizienten und generischen Framework für mehrfache Aufgaben und mehrere Sensoren. Es vereint multimodale Merkmale im gemeinsamen Bird’s-Eye-View (BEV)-Darstellungsraum, wodurch sowohl geometrische als auch semantische Informationen gut erhalten bleiben. Um dies zu erreichen, analysieren und beheben wir zentrale Effizienzengpässe bei der Ansichtstransformation durch eine optimierte BEV-Pooling-Strategie, wodurch die Verzögerung um mehr als 40x reduziert wird. BEVFusion ist grundsätzlich aufgabenunabhängig und unterstützt nahtlos verschiedene 3D-Wahrnehmungsaufgaben mit nahezu keiner architektonischen Änderung. Es erreicht eine neue State-of-the-Art-Leistung auf dem nuScenes-Datensatz, wobei die mAP und NDS bei der 3D-Objekterkennung um 1,3 % steigen und die mIoU bei der BEV-Karten-Segmentierung um 13,6 %, bei einer um 1,9-fach geringeren Rechenlast. Der Quellcode zur Reproduktion unserer Ergebnisse ist unter https://github.com/mit-han-lab/bevfusion verfügbar.