HyperAIHyperAI
il y a 2 mois

Lowis3D : Compréhension des Scènes 3D au Niveau des Instances Guidée par le Langage dans un Monde Ouvert

Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan
Lowis3D : Compréhension des Scènes 3D au Niveau des Instances Guidée par le Langage dans un Monde Ouvert
Résumé

La compréhension de scènes au niveau des instances dans un monde ouvert vise à localiser et reconnaître des catégories d'objets non vues qui ne sont pas présentes dans le jeu de données annoté. Cette tâche est complexe car le modèle doit non seulement localiser de nouveaux objets en 3D, mais aussi inférer leurs catégories sémantiques. Un facteur clé du progrès récent en perception 2D dans un monde ouvert est la disponibilité de paires image-texte à grande échelle provenant d'Internet, couvrant une large gamme de concepts lexicaux. Cependant, il est difficile de reproduire ce succès dans les scénarios 3D en raison de la rareté des paires 3D-texte. Pour relever ce défi, nous proposons d'utiliser des modèles pré-entraînés vision-langage (VL) qui encodent une connaissance étendue à partir de paires image-texte pour générer des légendes pour les images multivues de scènes 3D. Cela nous permet d'établir des associations explicites entre les formes 3D et les légendes riches en sémantique. De plus, pour améliorer l'apprentissage des représentations visuelles-sémantiques fines à partir des légendes pour la catégorisation au niveau des objets, nous concevons des méthodes d'association hiérarchique entre points et légendes afin d'apprendre des plongements (embeddings) conscients de la sémantique qui exploitent la géométrie 3D entre les points 3D et les images multivues. En outre, pour aborder le défi de localisation des nouvelles classes dans un cadre ouvert, nous développons une localisation d'instances sans biais, qui implique l'entraînement de modules de regroupement d'objets sur des données non étiquetées en utilisant une supervision pseudo-instance. Ceci améliore considérablement les capacités de généralisation du regroupement d'instances et donc la capacité à localiser précisément les nouveaux objets. Nous menons des expériences approfondies sur les tâches de segmentation sémantique, instance et panoramique en 3D, couvrant des scènes intérieures et extérieures sur trois jeux de données. Notre méthode surpassent les méthodes baselines avec une marge significative en segmentation sémantique (par exemple, 34,5% $\sim$ 65,3%), segmentation par instance (par exemple, 21,8% $\sim$ 54,0%) et segmentation panoramique (par exemple, 14,7% $\sim$ 43,3%). Le code sera disponible.Note: The term "embeddings" is kept in English as it is commonly used in French scientific literature in the field of machine learning and computer vision.

Lowis3D : Compréhension des Scènes 3D au Niveau des Instances Guidée par le Langage dans un Monde Ouvert | Articles de recherche récents | HyperAI