Complétion Sémantique de Scène 3D à Deux Flux

L'inférence de la géométrie 3D et du sens sémantique des surfaces occultées est une tâche très complexe. Récemment, une première approche d'apprentissage de bout en bout a été proposée pour compléter une scène à partir d'une seule image de profondeur. Cette approche voxelise la scène et prédit, pour chaque voxel, s'il est occupé et, si c'est le cas, l'étiquette de classe sémantique. Dans ce travail, nous proposons une approche à deux flux qui exploite les informations de profondeur et les informations sémantiques inférées à partir de l'image RGB pour cette tâche. L'approche construit un tenseur sémantique 3D incomplet, qui utilise une codification compacte à trois canaux pour les informations sémantiques inférées, et utilise un réseau neuronal convolutif 3D (CNN) pour inférer le tenseur sémantique 3D complet. Dans notre évaluation expérimentale, nous montrons que l'approche à deux flux proposée surpasse considérablement l'état de l'art en matière de complétion sémantique de scènes.