3D-SIS : Segmentation sémantique d'instances 3D de scans RGB-D

Nous présentons 3D-SIS, une nouvelle architecture de réseau neuronal pour la segmentation sémantique d'instances en 3D à partir de scans RGB-D grand public. L'idée centrale de notre méthode est d'apprendre conjointement à partir des signaux géométriques et colorimétriques, ce qui permet des prédictions d'instances précises. Au lieu de se limiter aux cadres 2D, nous constatons que la plupart des applications de vision par ordinateur disposent d'une entrée RGB-D multivue, que nous exploitons pour construire une approche de segmentation d'instances en 3D qui fusionne efficacement ces entrées multimodales. Notre réseau utilise l'entrée RGB haute résolution en associant les images 2D à la grille volumique basée sur l'alignement de pose de la reconstruction 3D. Pour chaque image, nous extrayons d'abord des caractéristiques 2D pour chaque pixel grâce à une série de convolutions 2D ; nous projetons ensuite le vecteur de caractéristiques résultant vers le voxel associé dans la grille 3D. Cette combinaison d'apprentissage de caractéristiques 2D et 3D permet une détection d'objets et une segmentation d'instances significativement plus précises que les alternatives les plus performantes actuellement disponibles. Nous montrons des résultats sur des bancs d'essai publics tant synthétiques que réels, réalisant une amélioration du mAP (mean Average Precision) supérieure à 13 sur les données réelles.