18 天前
WIT:基于维基百科的多模态多语言机器学习图像文本数据集
Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork

摘要
深度表示学习与预训练技术所带来的里程碑式进展,显著提升了下游自然语言处理(NLP)、信息检索(IR)以及视觉任务的性能。多模态建模技术旨在利用大规模高质量的视觉-语言数据集,学习图像与文本模态之间的互补信息。本文介绍了基于维基百科的图像-文本(Wikipedia-based Image Text, WIT)数据集(https://github.com/google-research-datasets/wit),以更好地支持多模态、多语言学习。WIT包含经过精心筛选的3760万条富含实体的图像-文本样本,覆盖108种维基百科语言中的1150万张唯一图像。其庞大的规模使其可作为多模态模型的预训练数据集,我们在图像-文本检索等下游任务中的实验结果验证了这一点。WIT具有四个主要且独特的优势:第一,就图像-文本样本数量而言,WIT是目前规模最大的多模态数据集,规模达到此前同类数据集的三倍(以本文撰写时为准);第二,WIT具有前所未有的大规模多语言特性,覆盖100多种语言(每种语言均包含至少1.2万条样本),并为大量图像提供了跨语言文本描述;第三,相较于以往数据集,WIT涵盖的概念与现实世界实体更加多样化;第四,WIT提供了一个极具挑战性的现实世界测试集,我们通过图像-文本检索任务的实证研究对此进行了说明。