HyperAIHyperAI

Command Palette

Search for a command to run...

ULIP : Apprendre une représentation unifiée du langage, des images et des nuages de points pour la compréhension 3D

Le Xue Mingfei Gao Chen Xing Roberto Martín-Martín Jiajun Wu Caiming Xiong Ran Xu Juan Carlos Niebles Silvio Savarese

Résumé

Les capacités de reconnaissance des modèles 3D d'avant-garde actuels sont limitées par des ensembles de données comportant un nombre restreint de données annotées et un ensemble prédéfini de catégories. Dans le domaine 2D, les progrès récents ont montré que des problèmes similaires peuvent être considérablement atténués en utilisant des connaissances provenant d'autres modalités, comme le langage. Inspirés par ces résultats, l'exploitation d'informations multimodales pour la modalité 3D pourrait s'avérer prometteuse pour améliorer la compréhension 3D dans un régime de données limitées, mais cette voie de recherche n'est pas encore bien explorée. Nous introduisons donc ULIP pour apprendre une représentation unifiée des images, du texte et des nuages de points 3D grâce à une pré-entraînement avec des triplets d'objets issus des trois modalités. Pour surmonter le manque de triplets d'entraînement, ULIP utilise un modèle visuel-linguistique pré-entraîné qui a déjà acquis un espace visuel et textuel commun en étant entraîné sur un grand nombre de paires image-texte. Ensuite, ULIP apprend un espace de représentation 3D aligné avec l'espace image-texte commun en utilisant un petit nombre de triplets synthétisés automatiquement. ULIP est indifférent aux réseaux neuronaux tridimensionnels principaux et peut facilement être intégré à toute architecture 3D. Les expériences montrent que ULIP améliore efficacement les performances de plusieurs réseaux neuronaux tridimensionnels récents simplement en les pré-entraînant sur ShapeNet55 avec notre cadre, atteignant des performances d'avant-garde tant dans la classification 3D standard que dans la classification 3D zéro-shot sur ModelNet40 et ScanObjectNN. ULIP améliore également les performances du PointMLP d'environ 3% en classification 3D sur ScanObjectNN, et surpasses PointCLIP de 28,8% en précision top-1 pour la classification 3D zéro-shot sur ModelNet40. Notre code source et nos modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/salesforce/ULIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp