Amorcage des grands modèles vision-langage pour un raisonnement compositionnel

Les modèles vision-langage tels que CLIP ont démontré des capacités remarquables dans l’encodage de textes et d’images en embeddings alignés, permettant ainsi la récupération de données multimodales dans un espace d’embeddings partagé. Toutefois, ces modèles basés sur des embeddings rencontrent encore des difficultés à correspondre efficacement des images et des textes présentant une compositionnalité visio-linguistique similaire, comme le montre leur performance sur le jeu de données récent Winoground. Dans cet article, nous soutenons que cette limitation provient de deux facteurs : l’utilisation de représentations vectorielles simples pour des données multimodales complexes, et l’absence de raisonnement étape par étape dans ces méthodes basées sur des embeddings. Pour remédier à ce problème, nous proposons une approche exploratoire fondée sur une méthode générative originale, qui incite les grands modèles vision-langage (par exemple, GPT-4) à décrire des images et à effectuer un raisonnement compositionnel. Notre méthode surpasse les autres approches basées sur des embeddings sur le jeu de données Winoground, et obtient une amélioration supplémentaire allant jusqu’à 10 % en précision lorsqu’elle est enrichie par la description optimale.