vFusedSeg3D : Solution classée 3e au concours de segmentation sémantique du Waymo Open Dataset 2024

Dans cette étude technique, nous présentons VFusedSeg3D, un système innovant de fusion multi-capteurs développé par l’équipe VisionRD, qui combine les données provenant de caméras et de capteurs LiDAR afin d’améliorer significativement la précision de la perception 3D. VFusedSeg3D exploite le riche contenu sémantique des images capturées par la caméra ainsi que la précision de la mesure de profondeur offerte par le LiDAR pour générer une compréhension environnementale robuste et complète, surmontant ainsi les limites inhérentes à chacune des modalités. Grâce à une architecture de réseau soigneusement conçue qui aligne et fusionne ces informations à différentes étapes, notre technique novatrice de fusion de caractéristiques combine les caractéristiques géométriques issues des nuages de points LiDAR avec les caractéristiques sémantiques provenant des images de caméra. Grâce à l’utilisation de techniques multi-modales, les performances ont été sensiblement améliorées, atteignant un mIoU de pointe de 72,46 % sur l’ensemble de validation, contre 70,51 % précédemment. VFusedSeg3D établit ainsi une nouvelle référence en matière de précision de segmentation 3D, se positionnant comme une solution idéale pour les applications exigeant une perception environnementale précise.