ULIP : Apprendre une représentation unifiée du langage, des images et des nuages de points pour la compréhension 3D

Les capacités de reconnaissance des modèles 3D d'avant-garde actuels sont limitées par des ensembles de données comportant un nombre restreint de données annotées et un ensemble prédéfini de catégories. Dans le domaine 2D, les progrès récents ont montré que des problèmes similaires peuvent être considérablement atténués en utilisant des connaissances provenant d'autres modalités, comme le langage. Inspirés par ces résultats, l'exploitation d'informations multimodales pour la modalité 3D pourrait s'avérer prometteuse pour améliorer la compréhension 3D dans un régime de données limitées, mais cette voie de recherche n'est pas encore bien explorée. Nous introduisons donc ULIP pour apprendre une représentation unifiée des images, du texte et des nuages de points 3D grâce à une pré-entraînement avec des triplets d'objets issus des trois modalités. Pour surmonter le manque de triplets d'entraînement, ULIP utilise un modèle visuel-linguistique pré-entraîné qui a déjà acquis un espace visuel et textuel commun en étant entraîné sur un grand nombre de paires image-texte. Ensuite, ULIP apprend un espace de représentation 3D aligné avec l'espace image-texte commun en utilisant un petit nombre de triplets synthétisés automatiquement. ULIP est indifférent aux réseaux neuronaux tridimensionnels principaux et peut facilement être intégré à toute architecture 3D. Les expériences montrent que ULIP améliore efficacement les performances de plusieurs réseaux neuronaux tridimensionnels récents simplement en les pré-entraînant sur ShapeNet55 avec notre cadre, atteignant des performances d'avant-garde tant dans la classification 3D standard que dans la classification 3D zéro-shot sur ModelNet40 et ScanObjectNN. ULIP améliore également les performances du PointMLP d'environ 3% en classification 3D sur ScanObjectNN, et surpasses PointCLIP de 28,8% en précision top-1 pour la classification 3D zéro-shot sur ModelNet40. Notre code source et nos modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/salesforce/ULIP.