Fusion à plusieurs projections pour la segmentation sémantique en temps réel des nuages de points 3D LiDAR

La segmentation sémantique des nuages de points 3D est essentielle pour améliorer la perception de haut niveau dans les plateformes autonomes. Par ailleurs, avec le déploiement croissant des capteurs LiDAR embarqués dans les voitures et les drones, une attention particulière est portée aux algorithmes peu intensifs en calcul, capables de fonctionner sur des GPU mobiles. Les méthodes précédentes d’état de l’art efficaces s’appuyaient sur une projection sphérique 2D des nuages de points comme entrée pour des réseaux neuronaux entièrement convolutifs 2D, afin d’équilibrer le compromis précision-vitesse. Ce papier présente une nouvelle approche pour la segmentation sémantique des nuages de points 3D, exploitant plusieurs projections du nuage pour atténuer la perte d’information inhérente aux méthodes basées sur une seule projection. Notre cadre de fusion multi-projection (MPF) analyse les projections sphériques et vue de dessus à l’aide de deux modèles 2D entièrement convolutifs hautement efficaces, puis combine les résultats de segmentation des deux vues. Le cadre proposé est validé sur le jeu de données SemanticKITTI, où il atteint un mIoU de 55,5, supérieur à celui des méthodes d’état de l’art basées sur la projection, telles que RangeNet++ et PolarNet, tout en étant 1,6 fois plus rapide que la première et 3,1 fois plus rapide que la seconde.