HyperAIHyperAI

Command Palette

Search for a command to run...

ImageBind : Un Espace d'Embedding Pour Les Rassembler Tous

Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra

Résumé

Nous présentons ImageBind, une approche permettant d'apprendre une représentation commune (embedding) entre six modalités différentes : images, texte, audio, profondeur, thermique et données IMU. Nous démontrons que toutes les combinaisons de données appariées ne sont pas nécessaires pour entraîner un tel embedding commun, et qu'il suffit de disposer de données appariées avec des images pour lier les modalités ensemble. ImageBind peut tirer parti des modèles récents à grande échelle en vision-langue, et étend leurs capacités zero-shot à de nouvelles modalités simplement en utilisant leur appariement naturel avec les images. Cela permet d'exploiter immédiatement de nouvelles applications émergentes, notamment la recherche croisée entre modalités, la composition de modalités par arithmétique, la détection et la génération inter-modales. Les capacités émergentes s'améliorent avec la performance du codificateur d'images, et nous établissons un nouveau niveau d'excellence dans les tâches de reconnaissance zero-shot émergentes entre modalités, surpassant les modèles spécialisés supervisés. Enfin, nous montrons des résultats robustes en reconnaissance few-shot qui surpassent les travaux antérieurs, et que ImageBind offre une nouvelle méthode pour évaluer les modèles de vision pour des tâches visuelles et non visuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp