PanopticFusion : Cartographie Sémantique Volumétrique en Ligne au Niveau des Objets et des Surfaces

Nous proposons PanopticFusion, un nouveau système de cartographie sémantique volumétrique en ligne au niveau des éléments de fond (stuff) et des objets individuels (things). Contrairement aux systèmes de cartographie sémantique précédents, PanopticFusion est capable de prédire de manière dense les étiquettes de classe d'une région de fond (stuff) et de segmenter individuellement des objets arbitraires du premier plan (things). De plus, notre système possède la capacité de reconstruire une scène à grande échelle et d'extraire un maillage étiqueté grâce à son utilisation d'une représentation cartographique volumétrique hachée spatialement. Notre système prédit tout d'abord les étiquettes panoramiques par pixel (étiquettes de classe pour les régions stuff et identifiants d'instance pour les régions things) pour les trames RGB entrantes en fusionnant les sorties de segmentation sémantique 2D et d'instances. Les étiquettes panoramiques prédites sont intégrées dans la carte volumétrique avec les mesures de profondeur tout en maintenant la cohérence des identifiants d'instance, qui peuvent varier d'une trame à l'autre, en se référant à la carte 3D à ce moment-là. De plus, nous construisons un modèle de champ aléatoire conditionnel (CRF) entièrement connecté en fonction des étiquettes panoramiques pour la régularisation de la carte. Pour l'inférence CRF en ligne, nous proposons une nouvelle approximation du potentiel unaire et une stratégie de division de la carte.Nous avons évalué les performances de notre système sur le jeu de données ScanNet (v2). PanopticFusion a surpassé ou égalé les méthodes DNN 3D hors ligne les plus avancées dans les deux benchmarks de segmentation sémantique et d'instances. En outre, nous démontrons une application prometteuse en réalité augmentée utilisant une carte panoramique 3D générée par le système proposé.