HyperAIHyperAI
il y a 3 mois

BEVFusion : Fusion multi-tâches multi-capteurs avec une représentation unifiée en vue de dessus

Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han
BEVFusion : Fusion multi-tâches multi-capteurs avec une représentation unifiée en vue de dessus
Résumé

La fusion de capteurs multi-sources est essentielle pour assurer un système de conduite autonome précis et fiable. Les approches récentes reposent sur une fusion au niveau des points : enrichir le nuage de points LiDAR avec des caractéristiques provenant de caméras. Toutefois, la projection de la caméra vers le LiDAR entraîne une perte de densité sémantique des caractéristiques issues de la caméra, ce qui limite l’efficacité de ces méthodes, en particulier pour les tâches orientées vers la sémantique (comme la segmentation 3D de scène). Dans ce papier, nous rompons profondément avec cette convention établie en proposant BEVFusion, un cadre efficace et générique pour la fusion multi-capteurs multi-tâches. Ce cadre unifie les caractéristiques multi-modales dans un espace de représentation partagé en vue de dessus (BEV), préservant ainsi de manière optimale à la fois les informations géométriques et sémantiques. Pour y parvenir, nous identifions et surmontons les principaux goulets d’étranglement liés à l’efficacité du changement de vue grâce à un pooling BEV optimisé, réduisant ainsi la latence de plus de 40 fois. BEVFusion est fondamentalement indépendant des tâches et supporte de manière transparente différentes tâches de perception 3D avec pratiquement aucune modification architecturale. Il établit un nouveau état de l’art sur le benchmark nuScenes, atteignant une augmentation de 1,3 % en mAP et NDS pour la détection d’objets 3D, et une amélioration de 13,6 % en mIoU pour la segmentation de carte en vue de dessus, tout en réduisant le coût computationnel de 1,9 fois. Le code source permettant de reproduire nos résultats est disponible à l’adresse suivante : https://github.com/mit-han-lab/bevfusion.