Segmentation efficace de nuages de points à l’échelle urbaine basée sur une projection BEV

L’analyse des nuages de points a attiré l’attention des chercheurs ces dernières années, tout en laissant le problème de la segmentation sémantique 3D encore largement ouvert. La plupart des modèles profonds basés sur les nuages de points traitent directement les données 3D, ce qui entraîne des difficultés majeures dues à la forte sparsité et à la charge extrême de traitement des données, particulièrement dans les scènes urbaines à grande échelle. Pour relever ce défi, nous proposons de transformer les nuages de points 3D en projections denses vue de dessus (bird’s-eye-view). Dans ce cadre, la tâche de segmentation est simplifiée grâce à une réduction de l’iméquilibre des classes et à la possibilité d’exploiter diverses méthodes de segmentation 2D. Nous avons également conçu un réseau de fusion basé sur l’attention, capable de réaliser un apprentissage multimodal sur les images projetées. Enfin, les résultats 2D sont remappés pour produire des résultats de segmentation sémantique 3D. Pour démontrer les avantages de notre méthode, nous avons mené diverses expériences sur le jeu de données SensatUrban, où notre modèle obtient des résultats compétitifs (61,17 % de mIoU et 91,37 % de précision globale). Nous espérons que ce travail stimulera de nouvelles recherches dans le domaine de l’analyse des nuages de points.