HyperAIHyperAI
il y a 2 mois

ViT-Lens : Initier l'exploration omni-modale grâce aux insights 3D

Lei, Weixian ; Ge, Yixiao ; Zhang, Jianfeng ; Sun, Dylan ; Yi, Kun ; Shan, Ying ; Shou, Mike Zheng
ViT-Lens : Initier l'exploration omni-modale grâce aux insights 3D
Résumé

Bien que les recettes d'entraînement basées sur CLIP aient connu un succès notable dans les modèles de vision-langue, leur extensibilité à des modalités plus nombreuses (par exemple, 3D, audio, etc.) est limitée par l'absence de grandes quantités de données, qui sont coûteuses ou même inapplicables pour des modalités rares. Dans cet article, nous présentons ViT-Lens, une méthode qui facilite l'apprentissage efficace de représentations omni-modales en percevant de nouvelles modalités avec un ViT pré-entraîné et en les alignant sur un espace prédéfini. Plus précisément, le lentille spécifique à la modalité est ajusté pour projeter des signaux multimodaux vers un espace d'embedding partagé, où ils sont ensuite traités par un ViT puissant porteur de connaissances pré-entraînées en images. Les représentations multimodales encodées sont optimisées afin qu'elles s'alignent sur l'espace indépendant des modalités, prédéfini par des modèles fondamentaux disponibles sur le marché. Un lentille bien entraîné avec un backbone ViT a le potentiel de servir comme l'un de ces modèles fondamentaux, supervisant l'apprentissage de modalités ultérieures. ViT-Lens offre une solution unifiée pour l'apprentissage de représentations dans des modalités croissantes avec deux avantages notables : (i) Exploiter efficacement le ViT pré-entraîné à travers différentes tâches et domaines avec une gestion optimisée des données ; (ii) Des capacités émergentes en aval sont démontrées pour les nouvelles modalités grâce à l'espace d'alignement multimodal. Nous évaluons ViT-Lens dans le contexte de la modality 3D comme vérification initiale. En classification 3D sans supervision préalable, ViT-Lens réalise des améliorations substantielles par rapport aux méthodes précédentes de pointe, affichant une précision de 52,0 % sur Objaverse-LVIS, 87,4 % sur ModelNet40 et 60,6 % sur ScanObjectNN. De plus, nous permettons la réponse automatique à des questions 3D sans supervision préalable simplement en intégrant le lentille 3D entraîné au modèle InstructBLIP sans aucune adaptation supplémentaire. Nous publierons prochainement les résultats de ViT-Lens sur d'autres modalités.

ViT-Lens : Initier l'exploration omni-modale grâce aux insights 3D | Articles de recherche récents | HyperAI