HyperAIHyperAI
il y a 8 jours

SceneSplat : Compréhension de scène basée sur le Gaussian Splatting avec pré-entraînement vision-langage

Yue Li, Qi Ma, Runyi Yang, Huapeng Li, Mengjiao Ma, et al
SceneSplat : Compréhension de scène basée sur le Gaussian Splatting avec pré-entraînement vision-langage
Résumé

La reconnaissance de catégories arbitraires ou inédites est essentielle pour une compréhension complète des scènes 3D du monde réel. Actuellement, toutes les méthodes existantes s'appuient sur des modalités 2D ou textuelles durant l'entraînement, ou conjointement lors de l'inférence. Cela met en évidence l'absence manifeste d'un modèle capable de traiter uniquement des données 3D pour apprendre sémantiquement de manière end-to-end, ainsi que de la donnée nécessaire à l'entraînement d'un tel modèle. Parallèlement, le Splatting Gaussien 3D (3DGS) est devenu la norme de facto pour la représentation des scènes 3D dans diverses tâches de vision. Toutefois, intégrer efficacement une raisonnement sémantique dans le 3DGS de manière généralisable reste un défi ouvert. Pour relever ces limitations, nous introduisons SceneSplat, à notre connaissance la première approche à grande échelle pour la compréhension des scènes intérieures 3D fonctionnant nativement sur le 3DGS. En outre, nous proposons un schéma d'apprentissage auto-supervisé qui permet d'extraire des caractéristiques 3D riches à partir de scènes non étiquetées. Pour soutenir ces méthodes, nous introduisons SceneSplat-7K, le premier jeu de données à grande échelle basé sur le 3DGS pour les scènes intérieures, comprenant 7 916 scènes issues de sept jeux de données établis, tels que ScanNet et Matterport3D. La génération de SceneSplat-7K a nécessité des ressources computationnelles équivalentes à 150 jours de calcul sur une GPU L4, permettant ainsi un benchmark standardisé pour les raisonnements basés sur le 3DGS dans les scènes intérieures. Nos expériences exhaustives sur SceneSplat-7K démontrent de manière claire l'avantage significatif de la méthode proposée par rapport aux états de l'art.