HyperAIHyperAI

Command Palette

Search for a command to run...

WinoGAViL : Benchmark d'Association Gamifié pour Défier les Modèles de Vision et de Langage

Yonatan Bitton†∗ Nitzan Bitton-Guetta‡∗ Ron Yosef † Yuval Elovici‡ Mohit Bansal¶ Gabriel Stanovsky† Roy Schwartz†

Résumé

Bien que les modèles de vision et de langage se distinguent dans des tâches comme la réponse à des questions visuelles, ils éprouvent des difficultés lorsqu'il s'agit d'appliquer les compétences de raisonnement fondées sur le sens commun humain. Dans cette étude, nous présentons WinoGAViL : un jeu en ligne de associations entre vision et langage (par exemple, entre les loups-garous et la pleine lune), utilisé comme un benchmark d'évaluation dynamique. Inspiré par le jeu de cartes populaire Codenames, un maître espion donne une indication textuelle liée à plusieurs candidats visuels, et un autre joueur tente de les identifier. Les joueurs humains sont récompensés pour créer des associations qui sont difficiles pour un modèle IA concurrent mais toujours résolubles par d'autres joueurs humains. Nous utilisons ce jeu pour collecter 3 500 instances, constatant qu'elles sont intuitives pour les humains (plus de 90 % d'indice de Jaccard) mais difficiles pour les modèles IA de pointe, où le meilleur modèle (ViLT) obtient un score de 52 %, réussissant principalement lorsque l'indication est visuellement évidente. Notre analyse ainsi que les retours recueillis auprès des joueurs indiquent que les associations collectées nécessitent diverses compétences en raisonnement, incluant la connaissance générale, le sens commun, l'abstraction et plus encore. Nous mettons à disposition le jeu interactif, le code source et le jeu de données, permettant ainsi une future collecte de données qui pourra être utilisée pour développer des modèles dotés de meilleures capacités associatives.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp