HyperAIHyperAI
il y a 11 jours

Raisonnement ancré visuellement à travers les langues et les cultures

Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy, Nigel Collier, Desmond Elliott
Raisonnement ancré visuellement à travers les langues et les cultures
Résumé

La conception des grands jeux de données vision-langage et des encodeurs pré-entraînés repose directement sur les concepts et les images d’ImageNet, ou s’en inspire fortement. Bien qu’on ne puisse guère exagérer l’importance de cette référence dans les progrès de la vision par ordinateur, elle provient principalement de bases de données lexicales et de requêtes d’images en anglais, ce qui introduit un biais marqué en faveur des cultures nord-américaines et européennes. Ainsi, nous proposons un nouveau protocole visant à construire une hiérarchie du type ImageNet, représentative de langues et de cultures plus diverses. Plus précisément, nous faisons en sorte que la sélection des concepts et des images soit entièrement pilotée par des locuteurs natifs, plutôt que d’être effectuée automatiquement par scraping. Nous nous concentrons particulièrement sur un ensemble typologiquement diversifié de langues : l’indonésien, le chinois mandarin, le swahili, le tamoul et le turc. À partir des concepts et images obtenus selon ce nouveau protocole, nous construisons un jeu de données multilingue pour le raisonnement multiculturel sur la vision et le langage (MaRVL), en sollicitant des énoncés de locuteurs natifs concernant des paires d’images. La tâche consiste à déterminer si chaque énoncé ancré est vrai ou faux. Nous établissons une série de lignes de base à l’aide de modèles d’état de l’art et constatons que leur performance en transfert multilingue est nettement inférieure à celle obtenue en apprentissage supervisé en anglais. Ces résultats nous invitent à repenser la robustesse et la précision des modèles d’état de l’art actuels au-delà d’un domaine étroit, tout en ouvrant de nouvelles perspectives stimulantes pour le développement de systèmes véritablement multilingues et multiculturels.

Raisonnement ancré visuellement à travers les langues et les cultures | Articles de recherche récents | HyperAI