HyperAIHyperAI

Command Palette

Search for a command to run...

Amorcage des grands modèles vision-langage pour un raisonnement compositionnel

Timothy Ossowski Ming Jiang Junjie Hu

Résumé

Les modèles vision-langage tels que CLIP ont démontré des capacités remarquables dans l’encodage de textes et d’images en embeddings alignés, permettant ainsi la récupération de données multimodales dans un espace d’embeddings partagé. Toutefois, ces modèles basés sur des embeddings rencontrent encore des difficultés à correspondre efficacement des images et des textes présentant une compositionnalité visio-linguistique similaire, comme le montre leur performance sur le jeu de données récent Winoground. Dans cet article, nous soutenons que cette limitation provient de deux facteurs : l’utilisation de représentations vectorielles simples pour des données multimodales complexes, et l’absence de raisonnement étape par étape dans ces méthodes basées sur des embeddings. Pour remédier à ce problème, nous proposons une approche exploratoire fondée sur une méthode générative originale, qui incite les grands modèles vision-langage (par exemple, GPT-4) à décrire des images et à effectuer un raisonnement compositionnel. Notre méthode surpasse les autres approches basées sur des embeddings sur le jeu de données Winoground, et obtient une amélioration supplémentaire allant jusqu’à 10 % en précision lorsqu’elle est enrichie par la description optimale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp