Segmentation sémantique 3D avec des réseaux de neurones convolutionnels épars sous-variété

Les réseaux de neurones convolutifs sont le standard de facto pour l'analyse des données spatio-temporelles telles que les images, les vidéos et les formes 3D. Bien que certaines de ces données soient naturellement denses (par exemple, les photos), de nombreuses autres sources de données sont intrinsèquement éparse. Des exemples incluent les nuages de points 3D obtenus à l'aide d'un scanner LiDAR ou d'une caméra RGB-D. Les implémentations standards « denses » des réseaux de neurones convolutifs sont très inefficaces lorsqu'elles sont appliquées à ce type de données éparse. Nous introduisons de nouvelles opérations de convolution éparse conçues pour traiter les données spatialement éparse plus efficacement, et nous les utilisons pour développer des réseaux de neurones convolutifs spatialement éparse. Nous démontrons les performances remarquables des modèles résultants, appelés réseaux de neurones convolutifs éparse sous-variété (SSCNs) [submanifold sparse convolutional networks], sur deux tâches impliquant la segmentation sémantique des nuages de points 3D. En particulier, nos modèles surpassent tous les précédents états de l'art sur l'ensemble de test d'une compétition récente en segmentation sémantique.