WinoGAViL : Benchmark d'Association Gamifié pour Défier les Modèles de Vision et de Langage

Bien que les modèles de vision et de langage se distinguent dans des tâches comme la réponse à des questions visuelles, ils éprouvent des difficultés lorsqu'il s'agit d'appliquer les compétences de raisonnement fondées sur le sens commun humain. Dans cette étude, nous présentons WinoGAViL : un jeu en ligne de associations entre vision et langage (par exemple, entre les loups-garous et la pleine lune), utilisé comme un benchmark d'évaluation dynamique. Inspiré par le jeu de cartes populaire Codenames, un maître espion donne une indication textuelle liée à plusieurs candidats visuels, et un autre joueur tente de les identifier. Les joueurs humains sont récompensés pour créer des associations qui sont difficiles pour un modèle IA concurrent mais toujours résolubles par d'autres joueurs humains. Nous utilisons ce jeu pour collecter 3 500 instances, constatant qu'elles sont intuitives pour les humains (plus de 90 % d'indice de Jaccard) mais difficiles pour les modèles IA de pointe, où le meilleur modèle (ViLT) obtient un score de 52 %, réussissant principalement lorsque l'indication est visuellement évidente. Notre analyse ainsi que les retours recueillis auprès des joueurs indiquent que les associations collectées nécessitent diverses compétences en raisonnement, incluant la connaissance générale, le sens commun, l'abstraction et plus encore. Nous mettons à disposition le jeu interactif, le code source et le jeu de données, permettant ainsi une future collecte de données qui pourra être utilisée pour développer des modèles dotés de meilleures capacités associatives.