HyperAIHyperAI

Command Palette

Search for a command to run...

SceneSplat : Compréhension de scène basée sur le Gaussian Splatting avec pré-entraînement vision-langage

Yue Li Qi Ma Runyi Yang Huapeng Li Mengjiao Ma et al

Résumé

La reconnaissance de catégories arbitraires ou inédites est essentielle pour une compréhension complète des scènes 3D du monde réel. Actuellement, toutes les méthodes existantes s'appuient sur des modalités 2D ou textuelles durant l'entraînement, ou conjointement lors de l'inférence. Cela met en évidence l'absence manifeste d'un modèle capable de traiter uniquement des données 3D pour apprendre sémantiquement de manière end-to-end, ainsi que de la donnée nécessaire à l'entraînement d'un tel modèle. Parallèlement, le Splatting Gaussien 3D (3DGS) est devenu la norme de facto pour la représentation des scènes 3D dans diverses tâches de vision. Toutefois, intégrer efficacement une raisonnement sémantique dans le 3DGS de manière généralisable reste un défi ouvert. Pour relever ces limitations, nous introduisons SceneSplat, à notre connaissance la première approche à grande échelle pour la compréhension des scènes intérieures 3D fonctionnant nativement sur le 3DGS. En outre, nous proposons un schéma d'apprentissage auto-supervisé qui permet d'extraire des caractéristiques 3D riches à partir de scènes non étiquetées. Pour soutenir ces méthodes, nous introduisons SceneSplat-7K, le premier jeu de données à grande échelle basé sur le 3DGS pour les scènes intérieures, comprenant 7 916 scènes issues de sept jeux de données établis, tels que ScanNet et Matterport3D. La génération de SceneSplat-7K a nécessité des ressources computationnelles équivalentes à 150 jours de calcul sur une GPU L4, permettant ainsi un benchmark standardisé pour les raisonnements basés sur le 3DGS dans les scènes intérieures. Nos expériences exhaustives sur SceneSplat-7K démontrent de manière claire l'avantage significatif de la méthode proposée par rapport aux états de l'art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SceneSplat : Compréhension de scène basée sur le Gaussian Splatting avec pré-entraînement vision-langage | Articles | HyperAI