HyperAIHyperAI

Command Palette

Search for a command to run...

Winoground : Investigation des modèles vision-langage en matière de compositionnalité visio-linguistique

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

Résumé

Nous présentons une nouvelle tâche et un nouveau jeu de données visant à évaluer la capacité des modèles vision-langage à effectuer un raisonnement compositionnel visio-linguistique, que nous appelons Winoground. Étant donné deux images et deux légendes, l’objectif consiste à les appairer correctement — mais de façon cruciale, les deux légendes contiennent exactement le même ensemble de mots, simplement réordonnés. Ce jeu de données a été soigneusement sélectionné manuellement par des annotateurs experts et étiqueté avec une série riche de balises fines afin d’aider à l’analyse des performances des modèles. Nous évaluons une large variété de modèles d’état de l’art en vision et langage, et constatons de manière surprenante que, aucun d’eux ne se distingue significativement du hasard. Il est clair que ces modèles ne maîtrisent pas encore aussi bien le raisonnement compositionnel visio-linguistique que nous l’aurions espéré. Nous menons une analyse approfondie afin d’obtenir des pistes pour améliorer ces modèles dans le futur. Notre objectif est que Winoground devienne un ensemble d’évaluation utile pour faire progresser l’état de l’art et stimuler davantage l’évolution du domaine. Le jeu de données est disponible à l’adresse suivante : https://huggingface.co/datasets/facebook/winoground.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Winoground : Investigation des modèles vision-langage en matière de compositionnalité visio-linguistique | Articles | HyperAI