ULIP-2 : Vers un pré-entraînement multimodal évolutif pour la compréhension 3D

Les avancées récentes dans le pré-entraînement multimodal ont démontré une efficacité prometteuse dans l’apprentissage des représentations 3D en alignant les caractéristiques multimodales entre les formes 3D, leurs contreparties 2D et les descriptions linguistiques. Toutefois, les méthodes utilisées par les cadres existants pour collecter ces données multimodales, en particulier les descriptions linguistiques des objets 3D, ne sont pas évolutives, et les descriptions recueillies manquent de diversité. Pour remédier à ce problème, nous introduisons ULIP-2, un cadre de pré-entraînement tri-modes simple mais efficace, qui exploite des modèles multimodaux à grande échelle pour générer automatiquement des descriptions linguistiques globales des objets 3D. Ce cadre nécessite uniquement des données 3D en entrée, sans aucune annotation manuelle 3D, ce qui le rend évolutif à grande échelle. ULIP-2 est également doté de modèles de fond (backbones) agrandis, permettant une meilleure apprentissage des représentations multimodales. Nous menons des expériences sur deux grands ensembles de données 3D, Objaverse et ShapeNet, auxquels nous ajoutons des jeux de données tri-modaux comprenant des nuages de points 3D, des images et des descriptions linguistiques afin d’entraîner ULIP-2. Les résultats montrent que ULIP-2 apporte des bénéfices significatifs dans trois tâches à la suite : classification 3D zéro-shot, classification 3D standard avec ajustement fin (fine-tuning), et captioning 3D (génération langagière à partir de 3D). ULIP-2 atteint un nouveau record (SOTA) de 50,6 % (top-1) sur Objaverse-LVIS et de 84,7 % (top-1) sur ModelNet40 pour la classification zéro-shot. Sur le benchmark ScanObjectNN pour l’ajustement fin standard, ULIP-2 atteint une précision globale de 91,5 % avec un modèle compact de seulement 1,4 million de paramètres. ULIP-2 ouvre ainsi une nouvelle voie pour l’apprentissage évolutif des représentations 3D multimodales sans annotation humaine, tout en surpassant significativement les méthodes existantes. Le code source et les jeux de données sont disponibles à l’adresse suivante : https://github.com/salesforce/ULIP.