
摘要
常识被定义为所有人共享的知识。然而,某些类型的常识性知识与文化背景和地理区域密切相关,仅在特定区域内共享。例如,婚礼仪式的场景因历史和宗教因素影响而呈现出不同的习俗,各地差异显著。然而,以往的研究工作通常忽略了这些区域性特征。本文构建了一个地理多样化的视觉常识推理数据集(Geo-Diverse Visual Commonsense Reasoning,简称 GD-VCR),用以评估视觉-语言模型在理解文化差异及地理特异性常识方面的能力。具体而言,我们选取了两种先进的视觉-语言模型——VisualBERT 和 ViLBERT,它们均在 VCR(一个标准的多模态常识推理基准)上进行训练,而该基准的数据集图像主要来自西方地区。随后,我们评估这些模型在 GD-VCR 数据集上的泛化能力,即其对非西方地区问题的解答表现。实验结果表明,两种模型在东亚、南亚和非洲等非西方地区的表现显著低于在西方地区的性能。我们进一步分析了性能差异的成因,发现性能差距在以下两类问题中尤为明显:1)涉及文化相关场景的问题,如婚礼、宗教活动和节日庆典;2)需要高层次的地理多样性常识推理,而非低层次的感知与识别能力。该研究揭示了当前视觉-语言模型在跨文化常识理解方面的局限性。相关数据集与代码已公开发布于:https://github.com/WadeYin9712/GD-VCR。