il y a 16 jours

Winoground : Investigation des modèles vision-langage en matière de compositionnalité visio-linguistique

Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross

Résumé

Nous présentons une nouvelle tâche et un nouveau jeu de données visant à évaluer la capacité des modèles vision-langage à effectuer un raisonnement compositionnel visio-linguistique, que nous appelons Winoground. Étant donné deux images et deux légendes, l’objectif consiste à les appairer correctement — mais de façon cruciale, les deux légendes contiennent exactement le même ensemble de mots, simplement réordonnés. Ce jeu de données a été soigneusement sélectionné manuellement par des annotateurs experts et étiqueté avec une série riche de balises fines afin d’aider à l’analyse des performances des modèles. Nous évaluons une large variété de modèles d’état de l’art en vision et langage, et constatons de manière surprenante que, aucun d’eux ne se distingue significativement du hasard. Il est clair que ces modèles ne maîtrisent pas encore aussi bien le raisonnement compositionnel visio-linguistique que nous l’aurions espéré. Nous menons une analyse approfondie afin d’obtenir des pistes pour améliorer ces modèles dans le futur. Notre objectif est que Winoground devienne un ensemble d’évaluation utile pour faire progresser l’état de l’art et stimuler davantage l’évolution du domaine. Le jeu de données est disponible à l’adresse suivante : https://huggingface.co/datasets/facebook/winoground.