HyperAIHyperAI
il y a 2 mois

ImageBind : Un Espace d'Embedding Pour Les Rassembler Tous

Rohit Girdhar; Alaaeldin El-Nouby; Zhuang Liu; Mannat Singh; Kalyan Vasudev Alwala; Armand Joulin; Ishan Misra
ImageBind : Un Espace d'Embedding Pour Les Rassembler Tous
Résumé

Nous présentons ImageBind, une approche permettant d'apprendre une représentation commune (embedding) entre six modalités différentes : images, texte, audio, profondeur, thermique et données IMU. Nous démontrons que toutes les combinaisons de données appariées ne sont pas nécessaires pour entraîner un tel embedding commun, et qu'il suffit de disposer de données appariées avec des images pour lier les modalités ensemble. ImageBind peut tirer parti des modèles récents à grande échelle en vision-langue, et étend leurs capacités zero-shot à de nouvelles modalités simplement en utilisant leur appariement naturel avec les images. Cela permet d'exploiter immédiatement de nouvelles applications émergentes, notamment la recherche croisée entre modalités, la composition de modalités par arithmétique, la détection et la génération inter-modales. Les capacités émergentes s'améliorent avec la performance du codificateur d'images, et nous établissons un nouveau niveau d'excellence dans les tâches de reconnaissance zero-shot émergentes entre modalités, surpassant les modèles spécialisés supervisés. Enfin, nous montrons des résultats robustes en reconnaissance few-shot qui surpassent les travaux antérieurs, et que ImageBind offre une nouvelle méthode pour évaluer les modèles de vision pour des tâches visuelles et non visuelles.

ImageBind : Un Espace d'Embedding Pour Les Rassembler Tous | Articles de recherche récents | HyperAI