
摘要
多模态大语言模型(MLLMs)在高资源环境下表现优异,但在处理长尾文化实体时常常出现误解,且在低资源语言上的性能表现不佳。为弥补这一差距,我们提出一种以数据为中心的方法,直接将MLLMs与文化知识进行对齐。基于Wikidata构建的大规模知识图谱,我们收集了代表具有文化重要性的实体的图像,并生成了合成的多语言视觉问答数据。由此构建的数据集——CulturalGround,包含2200万条高质量、富含文化内涵的视觉问答对,覆盖42个国家和39种语言。我们在CulturalGround上训练了一个开源的多模态大语言模型CulturalPangea,并穿插使用标准的多语言指令微调数据,以保持其通用能力。实验结果表明,CulturalPangea在多个聚焦文化的多语言多模态基准测试中达到当前开源模型的最先进水平,平均性能超越以往模型5.0个百分点,同时在主流视觉-语言任务上未出现性能下降。研究结果表明,我们提出的这种有针对性的、以文化为根基的方法,能够显著缩小多模态大语言模型中的文化差距,并为构建全球包容性的多模态系统提供一条切实可行的路径。