HyperAIHyperAI
il y a 3 mois

Fusion multi-vue virtuelle pour la segmentation sémantique 3D

Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru
Fusion multi-vue virtuelle pour la segmentation sémantique 3D
Résumé

La segmentation sémantique des maillages 3D est un problème crucial pour la compréhension des scènes 3D. Dans cet article, nous revisitons la représentation classique à plusieurs vues des maillages 3D et étudions plusieurs techniques permettant de les rendre efficaces pour la segmentation sémantique 3D des maillages. Étant donné un maillage 3D reconstruit à partir de capteurs RGBD, notre méthode choisit efficacement différentes vues virtuelles du maillage 3D et rend plusieurs canaux 2D afin d’entraîner un modèle de segmentation sémantique 2D performant. Les caractéristiques issues des prédictions par vue sont finalement fusionnées aux sommets du maillage 3D pour prédire les étiquettes de segmentation sémantique du maillage. En utilisant le grand benchmark de segmentation sémantique 3D en intérieur, ScanNet, nous démontrons que nos vues virtuelles permettent un entraînement plus efficace des réseaux de segmentation sémantique 2D par rapport aux approches multivues antérieures. Lorsque les prédictions par pixel 2D sont agrégées sur les surfaces 3D, notre méthode de fusion multivue virtuelle obtient des résultats significativement meilleurs en segmentation sémantique 3D par rapport à toutes les approches multivues antérieures, tout en étant compétitive avec les méthodes récentes basées sur des convolutions 3D.