GFNet : Réseau de flux géométrique pour la segmentation sémantique des nuages de points 3D

La segmentation sémantique des nuages de points à partir de vues projetées, telles que la vue d'amplitude (RV) et la vue oiseau-de-proie (BEV), a été intensivement étudiée. Les différentes vues capturent des informations différentes des nuages de points et sont donc complémentaires les unes aux autres. Cependant, les méthodes récentes basées sur la projection pour la segmentation sémantique des nuages de points utilisent généralement une stratégie de fusion tardive simple pour les prédictions de différentes vues, sans exploiter l'information complémentaire sous un angle géométrique lors de l'apprentissage des représentations. Dans cet article, nous introduisons un réseau de flux géométrique (GFNet) pour explorer la correspondance géométrique entre les différentes vues selon une approche d'alignement avant fusion. Plus précisément, nous avons conçu un module de flux géométrique (GFM) novateur pour aligner et propager bidirectionnellement l'information complémentaire entre les différentes vues en fonction des relations géométriques dans le cadre d'un apprentissage bout-à-bout. Nous menons des expériences approfondies sur deux ensembles de données de référence largement utilisés, SemanticKITTI et nuScenes, afin de démontrer l'efficacité de notre GFNet pour la segmentation sémantique des nuages de points basée sur la projection. En effet, non seulement GFNet améliore considérablement les performances de chaque vue individuelle, mais il atteint également des résultats d'avant-garde par rapport à tous les modèles existants basés sur la projection. Le code est disponible à l'adresse \url{https://github.com/haibo-qiu/GFNet}.