Apprentissage de la segmentation sémantique 3D avec une supervision uniquement par images 2D

À la suite de la croissance récente des initiatives de cartographie urbaine et de conduite autonome, il y a eu une explosion des données brutes 3D collectées à partir de plateformes terrestres équipées de capteurs lidar et de caméras couleur. Toutefois, en raison des coûts élevés d'étiquetage, les annotations sémantiques 3D de vérité terrain sont limitées en quantité et en diversité géographique, et leur transfert entre capteurs s’avère difficile. En revanche, de grandes collections d’images annotées sémantiquement sont facilement disponibles pour une grande variété de scènes. Dans cet article, nous étudions comment utiliser uniquement ces collections d’images étiquetées 2D pour superviser l’entraînement de modèles de segmentation sémantique 3D. Notre approche consiste à entraîner un modèle 3D à partir de pseudo-étiquettes dérivées de segmentations sémantiques 2D en utilisant une fusion multi-vue. Nous abordons plusieurs problèmes novateurs liés à cette méthode, notamment la sélection de pseudo-étiquettes fiables, l’échantillonnage de scènes 3D contenant des catégories d’objets rares, ainsi que la désagrégation des caractéristiques d’entrée provenant des images 2D des pseudo-étiquettes pendant l’entraînement. L’architecture de réseau proposée, 2D3DNet, obtient des performances nettement supérieures (amélioration de +6,2 à +11,4 mIoU) par rapport aux méthodes de référence lors d’expériences sur un nouveau jeu de données urbaines comprenant des données lidar et des images recueillies dans 20 villes réparties sur cinq continents.