HyperAIHyperAI

Command Palette

Search for a command to run...

OpenShape : Élargissement de la Représentation des Formes 3D vers une Compréhension du Monde Ouvert

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Résumé

Nous présentons OpenShape, une méthode pour l'apprentissage de représentations conjointes multi-modales du texte, des images et des nuages de points. Nous adoptons le cadre d'apprentissage contrastif multi-modal couramment utilisé pour l'alignement des représentations, mais avec un accent particulier sur l'échelle des représentations 3D afin de permettre une compréhension ouverte des formes 3D. Pour y parvenir, nous augmentons les données d'entraînement en combinant plusieurs jeux de données 3D et proposons plusieurs stratégies pour filtrer automatiquement et enrichir les descriptions textuelles bruyantes. Nous explorons également et comparons différentes stratégies pour échelonner les réseaux neuronaux de base 3D, et introduisons un nouveau module d'extraction de négatifs difficiles pour une formation plus efficace. Nous évaluons OpenShape sur des benchmarks de classification 3D à vue zéro et démontrons ses capacités supérieures pour la reconnaissance dans un monde ouvert. Plus précisément, OpenShape atteint une précision à vue zéro de 46,8 % sur le benchmark Objaverse-LVIS comprenant 1 156 catégories, contre moins de 10 % pour les méthodes existantes. OpenShape obtient également une précision de 85,3 % sur ModelNet40, surpassant les méthodes baselines précédentes à vue zéro de 20 % et se situant au même niveau que certaines méthodes entièrement supervisées. De plus, nous montrons que nos plongements appris encodent une large gamme de concepts visuels et sémantiques (par exemple, sous-catégories, couleur, forme, style) et facilitent les interactions text-3D et image-3D fines. Grâce à leur alignement avec les plongements CLIP, nos représentations de formes apprises peuvent également être intégrées aux modèles basés sur CLIP prêts à l'emploi pour diverses applications telles que la légendisation des nuages de points et la génération d'images conditionnées par les nuages de points.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp