HyperAIHyperAI

Command Palette

Search for a command to run...

Élargir la vision : Raisonnement visuel du sens commun à diversité géographique

Da Yin Liunian Harold Li Ziniu Hu Nanyun Peng Kai-Wei Chang

Résumé

Le bon sens est défini comme le savoir partagé par tous. Toutefois, certains types de connaissances du bon sens sont corrélés à la culture et aux localisations géographiques, et ne sont partagés qu’au niveau local. Par exemple, les scénarios des cérémonies de mariage varient selon les régions en raison de coutumes différentes influencées par des facteurs historiques et religieux. Ces caractéristiques régionales sont généralement omises dans les travaux antérieurs. Dans cet article, nous construisons un jeu de données de raisonnement visuel et sémantique à diversité géographique (GD-VCR) afin d’évaluer la capacité des modèles vision-langage à comprendre le bon sens spécifique aux cultures et aux localisations géographiques. Plus précisément, nous étudions deux modèles d’état de l’art en vision-langage, VisualBERT et ViLBERT, entraînés sur VCR, une référence standard multimodale pour le bon sens, composée principalement d’images provenant de régions occidentales. Nous évaluons ensuite dans quelle mesure ces modèles entraînés parviennent à généraliser pour répondre aux questions du jeu de données GD-VCR. Nous constatons que les performances des deux modèles dans les régions non occidentales, notamment l’Asie de l’Est, l’Asie du Sud et l’Afrique, sont significativement inférieures à celles observées dans les régions occidentales. Nous analysons les causes de cette disparité de performance et constatons que l’écart de performance est plus important pour les paires question-réponse qui : 1) portent sur des scénarios liés à la culture, tels que les mariages, les activités religieuses ou les fêtes ; 2) exigent un raisonnement du bon sens à forte diversité géographique, plutôt que des capacités de perception ou de reconnaissance de bas niveau. Le jeu de données et le code sont disponibles à l’adresse suivante : https://github.com/WadeYin9712/GD-VCR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp