HyperAIHyperAI
il y a 2 mois

OpenScene : Compréhension de scènes 3D avec des vocabulaires ouverts

Peng, Songyou ; Genova, Kyle ; Jiang, Chiyu Max ; Tagliasacchi, Andrea ; Pollefeys, Marc ; Funkhouser, Thomas
OpenScene : Compréhension de scènes 3D avec des vocabulaires ouverts
Résumé

Les approches traditionnelles de la compréhension des scènes 3D s'appuient sur des ensembles de données 3D étiquetés pour former un modèle à une tâche unique sous supervision. Nous proposons OpenScene, une alternative où le modèle prédit des caractéristiques denses pour les points de la scène 3D, qui sont co-embeddés avec des pixels d'images et du texte dans l'espace de caractéristiques CLIP. Cette approche zéro-shot permet une formation indépendante des tâches et des requêtes à vocabulaire ouvert. Par exemple, pour effectuer une segmentation sémantique 3D zéro-shot de pointe (SOTA), elle infère d'abord les caractéristiques CLIP pour chaque point 3D, puis les classe en fonction de leur similarité avec les embeddings de labels de classes arbitraires. Plus intéressamment, elle ouvre la voie à une série d'applications de compréhension des scènes à vocabulaire ouvert jamais réalisées auparavant. Par exemple, elle permet à un utilisateur d'entrer une requête textuelle arbitraire et de voir ensuite une carte thermique indiquant quelles parties de la scène correspondent. Notre approche est efficace pour identifier les objets, les matériaux, les possibilités d'utilisation (affordances), les activités et les types de pièces dans des scènes 3D complexes, tout cela en utilisant un seul modèle formé sans aucune donnée 3D étiquetée.

OpenScene : Compréhension de scènes 3D avec des vocabulaires ouverts | Articles de recherche récents | HyperAI