Segmentation sémantique 3D intérieure ancrée dans le langage dans le monde réel

Les avancées récentes en segmentation sémantique 3D basées sur les réseaux neuronaux profonds ont montré un succès remarquable, marqué par une amélioration rapide des performances sur les jeux de données disponibles. Toutefois, les benchmarks actuels de segmentation sémantique 3D ne comprennent qu’un nombre réduit de catégories — moins de 30 pour ScanNet et SemanticKITTI, par exemple — ce qui ne suffit pas à refléter la diversité des environnements réels (la compréhension sémantique d’images, par exemple, couvre des centaines voire des milliers de classes). Ainsi, nous proposons d’étudier un vocabulaire plus étendu pour la segmentation sémantique 3D, en introduisant un nouveau benchmark étendu basé sur les données ScanNet, comprenant 200 catégories, soit un ordre de grandeur supérieur à celui des études antérieures. Ce nombre élevé de catégories entraîne également un déséquilibre naturel important entre les classes, deux défis majeurs pour les méthodes existantes de segmentation sémantique 3D. Pour apprendre des caractéristiques 3D plus robustes dans ce contexte, nous proposons une méthode de pré-entraînement pilotée par le langage, visant à faire en sorte que les caractéristiques 3D apprises, même lorsqu’elles disposent de très peu d’exemples d’entraînement, se situent près de leurs embeddings textuels pré-entraînés. Des expériences étendues montrent que notre approche surpasse de manière cohérente les méthodes de pré-entraînement 3D les plus avancées sur notre benchmark proposé (+9 % de mIoU relatif), y compris dans des scénarios à données limitées, où elle atteint +25 % de mIoU relatif avec seulement 5 % d’étiquetages.