SalsaNext : Segmentation sémantique rapide et prise en compte de l'incertitude des nuages de points LiDAR pour la conduite autonome

Dans cet article, nous présentons SalsaNext pour la segmentation sémantique en temps réel d'un nuage de points 3D LiDAR complet, avec prise en compte de l'incertitude. SalsaNext est la version suivante de SalsaNet [1], qui possède une architecture encodeur-décodeur où l'unité encodeur comprend un ensemble de blocs ResNet et la partie décodeur combine les caractéristiques upsampled des blocs résiduels. Contrairement à SalsaNet, nous introduisons un nouveau module contextuel, remplaçons les blocs encodeurs ResNet par une nouvelle pile de convolutions résiduelles dilatées avec des champs récepteurs progressivement croissants et ajoutons une couche pixel-shuffle dans le décodeur. De plus, nous passons des convolutions avec pas (stride) au pooling moyen et appliquons également un traitement de dropout central. Pour optimiser directement l'indice de Jaccard, nous combinons en outre la perte de cross-entropie pondérée avec la perte Lovasz-Softmax [2]. Nous injectons enfin un traitement bayésien pour calculer les incertitudes épistémiques et aléatoires pour chaque point du nuage. Nous fournissons une évaluation quantitative approfondie sur le jeu de données Semantic-KITTI [3], qui montre que le SalsaNext proposé surpasse les autres réseaux de segmentation sémantique de pointe et occupe la première place du classement Semantic-KITTI. Nous mettons également notre code source à disposition : https://github.com/TiagoCortinhal/SalsaNext.