Command Palette
Search for a command to run...
3DMV : Prédiction 3D-Multi-Vue Conjuguée pour la Segmentations Sémantique 3D des Scènes
3DMV : Prédiction 3D-Multi-Vue Conjuguée pour la Segmentations Sémantique 3D des Scènes
Dai Angela Nieß ner Matthias
Résumé
Nous présentons 3DMV, une nouvelle méthode pour la segmentation sémantique 3D de scènes en intérieur à partir de scans RGB-D, basée sur un réseau de prédiction conjointe 3D-multi-vues. Contrairement aux méthodes existantes qui utilisent soit les données géométriques, soit les données RGB comme entrée pour cette tâche, nous combinons les deux modalités de données dans une architecture de réseau conjointe et end-to-end. Au lieu de projeter simplement les données couleur dans une grille volumétrique et de traiter uniquement en 3D — ce qui entraînerait une perte de détails — nous extrayons d'abord des cartes de caractéristiques à partir des images RGB associées. Ces caractéristiques sont ensuite projetées dans la grille de caractéristiques volumétriques d’un réseau 3D à l’aide d’une couche de backprojection différentiable. Étant donné que notre objectif concerne des scénarios de numérisation 3D pouvant comporter un grand nombre de trames, nous adoptons une approche de pooling multi-vues afin de gérer un nombre variable d’images RGB en entrée. Cette combinaison apprise des caractéristiques RGB et géométriques, grâce à notre architecture conjointe 2D-3D, permet d’obtenir des résultats significativement supérieurs à ceux des méthodes de référence. Par exemple, notre résultat final sur le benchmark de segmentation 3D ScanNet passe de 52,8 % à 75 % de précision, par rapport aux architectures volumétriques existantes.