Command Palette
Search for a command to run...
OpenShape : Élargissement de la Représentation des Formes 3D vers une Compréhension du Monde Ouvert
OpenShape : Élargissement de la Représentation des Formes 3D vers une Compréhension du Monde Ouvert
Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao
Résumé
Nous présentons OpenShape, une méthode pour l'apprentissage de représentations conjointes multi-modales du texte, des images et des nuages de points. Nous adoptons le cadre d'apprentissage contrastif multi-modal couramment utilisé pour l'alignement des représentations, mais avec un accent particulier sur l'échelle des représentations 3D afin de permettre une compréhension ouverte des formes 3D. Pour y parvenir, nous augmentons les données d'entraînement en combinant plusieurs jeux de données 3D et proposons plusieurs stratégies pour filtrer automatiquement et enrichir les descriptions textuelles bruyantes. Nous explorons également et comparons différentes stratégies pour échelonner les réseaux neuronaux de base 3D, et introduisons un nouveau module d'extraction de négatifs difficiles pour une formation plus efficace. Nous évaluons OpenShape sur des benchmarks de classification 3D à vue zéro et démontrons ses capacités supérieures pour la reconnaissance dans un monde ouvert. Plus précisément, OpenShape atteint une précision à vue zéro de 46,8 % sur le benchmark Objaverse-LVIS comprenant 1 156 catégories, contre moins de 10 % pour les méthodes existantes. OpenShape obtient également une précision de 85,3 % sur ModelNet40, surpassant les méthodes baselines précédentes à vue zéro de 20 % et se situant au même niveau que certaines méthodes entièrement supervisées. De plus, nous montrons que nos plongements appris encodent une large gamme de concepts visuels et sémantiques (par exemple, sous-catégories, couleur, forme, style) et facilitent les interactions text-3D et image-3D fines. Grâce à leur alignement avec les plongements CLIP, nos représentations de formes apprises peuvent également être intégrées aux modèles basés sur CLIP prêts à l'emploi pour diverses applications telles que la légendisation des nuages de points et la génération d'images conditionnées par les nuages de points.