HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-Lens : Initier l'exploration omni-modale grâce aux insights 3D

Weixian Lei extsuperscript1,2,3 Yixiao Ge extsuperscript2 extsuperscript† Jianfeng Zhang extsuperscript3 Dylan Sun extsuperscript2 Kun Yi extsuperscript2 Ying Shan extsuperscript2 Mike Zheng Shou extsuperscript1,3 extsuperscript†

Résumé

Bien que les recettes d'entraînement basées sur CLIP aient connu un succès notable dans les modèles de vision-langue, leur extensibilité à des modalités plus nombreuses (par exemple, 3D, audio, etc.) est limitée par l'absence de grandes quantités de données, qui sont coûteuses ou même inapplicables pour des modalités rares. Dans cet article, nous présentons ViT-Lens, une méthode qui facilite l'apprentissage efficace de représentations omni-modales en percevant de nouvelles modalités avec un ViT pré-entraîné et en les alignant sur un espace prédéfini. Plus précisément, le lentille spécifique à la modalité est ajusté pour projeter des signaux multimodaux vers un espace d'embedding partagé, où ils sont ensuite traités par un ViT puissant porteur de connaissances pré-entraînées en images. Les représentations multimodales encodées sont optimisées afin qu'elles s'alignent sur l'espace indépendant des modalités, prédéfini par des modèles fondamentaux disponibles sur le marché. Un lentille bien entraîné avec un backbone ViT a le potentiel de servir comme l'un de ces modèles fondamentaux, supervisant l'apprentissage de modalités ultérieures. ViT-Lens offre une solution unifiée pour l'apprentissage de représentations dans des modalités croissantes avec deux avantages notables : (i) Exploiter efficacement le ViT pré-entraîné à travers différentes tâches et domaines avec une gestion optimisée des données ; (ii) Des capacités émergentes en aval sont démontrées pour les nouvelles modalités grâce à l'espace d'alignement multimodal. Nous évaluons ViT-Lens dans le contexte de la modality 3D comme vérification initiale. En classification 3D sans supervision préalable, ViT-Lens réalise des améliorations substantielles par rapport aux méthodes précédentes de pointe, affichant une précision de 52,0 % sur Objaverse-LVIS, 87,4 % sur ModelNet40 et 60,6 % sur ScanObjectNN. De plus, nous permettons la réponse automatique à des questions 3D sans supervision préalable simplement en intégrant le lentille 3D entraîné au modèle InstructBLIP sans aucune adaptation supplémentaire. Nous publierons prochainement les résultats de ViT-Lens sur d'autres modalités.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ViT-Lens : Initier l'exploration omni-modale grâce aux insights 3D | Articles | HyperAI