ARKit LabelMaker : Une nouvelle échelle pour la compréhension des scènes 3D intérieures

Les performances des réseaux de neurones s'améliorent en fonction de leur taille et de la quantité de données sur lesquelles ils ont été entraînés. Cela est démontré dans la génération de langage et d'images. Cependant, cela nécessite des architectures de réseau favorables à l'évolutivité ainsi que des jeux de données à grande échelle. Bien que des architectures favorables à l'évolutivité comme les transformers aient émergé pour les tâches de vision 3D, le moment GPT (GPT-moment) de la vision 3D reste encore éloigné en raison du manque de données d'entraînement. Dans cet article, nous présentons ARKit LabelMaker, le premier jeu de données 3D à grande échelle et issu du monde réel, doté d'annotations sémantiques denses. Plus précisément, nous complétons le jeu de données ARKitScenes avec des annotations sémantiques denses générées automatiquement à grande échelle. À cette fin, nous étendons LabelMaker, une récente pipeline d'annotation automatique, pour répondre aux besoins de l'entraînement préalable à grande échelle. Cela implique d'étendre la pipeline avec des modèles de segmentation à la pointe de la technologie et de la rendre robuste face aux défis du traitement à grande échelle. De plus, nous améliorons les performances actuelles sur les jeux de données ScanNet et ScanNet200 grâce aux modèles courants de segmentation sémantique 3D, démontrant ainsi l'efficacité de notre jeu de données généré.