16 天前

跨语言与跨文化的视觉基础推理

Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy, Nigel Collier, Desmond Elliott
跨语言与跨文化的视觉基础推理
摘要

广泛使用的视觉-语言数据集及其预训练编码器的设计,大多直接采用或受到ImageNet概念与图像的启发。尽管我们很难过分强调这一基准对计算机视觉领域所作出的巨大贡献,但其数据来源主要基于英语的词汇数据库和图像检索,导致原始素材具有明显的北美或西欧文化偏向。为此,我们提出了一种新的构建协议,旨在建立一个能够代表更多语言与文化的、类ImageNet层级结构的数据体系。具体而言,我们让概念与图像的选择完全由母语使用者主导,而非依赖自动化爬取。我们特别聚焦于语系类型多样化的五种语言:印度尼西亚语、汉语普通话、斯瓦希里语、泰米尔语和土耳其语。基于这一新协议获取的概念与图像,我们进一步通过母语标注者对图像对生成陈述,构建了一个多语言、多文化的视觉-语言推理数据集——Multicultur{a}l {R}easoning over {V}ision and {L}anguage(MaRVL)。该任务要求判断每个具有语境关联的陈述是否为真。我们采用当前最先进的模型建立了一系列基线,结果发现这些模型在跨语言迁移任务中的表现远远落后于其在英语任务上的监督学习性能。这一结果促使我们重新审视当前最先进模型在狭窄领域之外的鲁棒性与准确性,同时也为构建真正意义上的多语言、多文化系统开辟了全新的、令人振奋的研究挑战。

跨语言与跨文化的视觉基础推理 | 最新论文 | HyperAI超神经