HyperAIHyperAI
il y a 17 jours

Élargir la vision : Raisonnement visuel du sens commun à diversité géographique

Da Yin, Liunian Harold Li, Ziniu Hu, Nanyun Peng, Kai-Wei Chang
Élargir la vision : Raisonnement visuel du sens commun à diversité géographique
Résumé

Le bon sens est défini comme le savoir partagé par tous. Toutefois, certains types de connaissances du bon sens sont corrélés à la culture et aux localisations géographiques, et ne sont partagés qu’au niveau local. Par exemple, les scénarios des cérémonies de mariage varient selon les régions en raison de coutumes différentes influencées par des facteurs historiques et religieux. Ces caractéristiques régionales sont généralement omises dans les travaux antérieurs. Dans cet article, nous construisons un jeu de données de raisonnement visuel et sémantique à diversité géographique (GD-VCR) afin d’évaluer la capacité des modèles vision-langage à comprendre le bon sens spécifique aux cultures et aux localisations géographiques. Plus précisément, nous étudions deux modèles d’état de l’art en vision-langage, VisualBERT et ViLBERT, entraînés sur VCR, une référence standard multimodale pour le bon sens, composée principalement d’images provenant de régions occidentales. Nous évaluons ensuite dans quelle mesure ces modèles entraînés parviennent à généraliser pour répondre aux questions du jeu de données GD-VCR. Nous constatons que les performances des deux modèles dans les régions non occidentales, notamment l’Asie de l’Est, l’Asie du Sud et l’Afrique, sont significativement inférieures à celles observées dans les régions occidentales. Nous analysons les causes de cette disparité de performance et constatons que l’écart de performance est plus important pour les paires question-réponse qui : 1) portent sur des scénarios liés à la culture, tels que les mariages, les activités religieuses ou les fêtes ; 2) exigent un raisonnement du bon sens à forte diversité géographique, plutôt que des capacités de perception ou de reconnaissance de bas niveau. Le jeu de données et le code sont disponibles à l’adresse suivante : https://github.com/WadeYin9712/GD-VCR.

Élargir la vision : Raisonnement visuel du sens commun à diversité géographique | Articles de recherche récents | HyperAI