3DMV : Prédiction conjointe 3D-multi-vue pour la segmentation sémantique de scène 3D

Nous présentons 3DMV, une nouvelle méthode de segmentation sémantique 3D de scènes à partir de scans RGB-D dans des environnements intérieurs, utilisant un réseau de prédiction 3D-multivue conjoint. Contrairement aux méthodes existantes qui utilisent soit les données géométriques, soit les données RGB comme entrée pour cette tâche, nous combinons les deux modalités de données dans une architecture de réseau conjointe et de bout en bout. Au lieu de projeter simplement les données couleur dans une grille volumétrique et d'opérer uniquement en 3D — ce qui entraînerait un manque de détails — nous extrayons d'abord des cartes de caractéristiques à partir des images RGB associées. Ces caractéristiques sont ensuite mappées dans la grille volumétrique de caractéristiques d'un réseau 3D grâce à une couche de réprojection différentiable. Étant donné que notre cible est des scénarios d'acquisition 3D avec potentiellement beaucoup d'images, nous utilisons une approche de regroupement multivue pour gérer un nombre variable d'images RGB en entrée. Cette combinaison apprise des caractéristiques RGB et géométriques avec notre architecture conjointe 2D-3D produit des résultats significativement meilleurs que ceux des méthodes baselines existantes. Par exemple, notre résultat final sur le banc d'essai de segmentation 3D ScanNet passe de 52,8 % à 75 % en termes de précision par rapport aux architectures volumétriques existantes.