2 个月前

MultiSubs:大规模多模态和多语言数据集

Josiah Wang; Pranava Madhyastha; Josiel Figueiredo; Chiraag Lala; Lucia Specia
MultiSubs:大规模多模态和多语言数据集
摘要

本文介绍了一个大规模的多模态和多语言数据集,旨在促进对语言中词汇在上下文中与图像关联的研究。该数据集由从电影字幕中选取的图像组成,这些图像能够明确地说明句子中表达的概念。该数据集具有重要价值,原因如下:(i) 图像与文本片段而非整个句子对齐;(ii) 每个文本片段和句子可能对应多个图像;(iii) 句子形式自由且接近真实世界;(iv) 平行文本为多语言。我们设计了一项填空游戏,以评估人类对我们数据集中自动图像选择过程的质量。我们展示了该数据集在两个自动化任务中的应用:(i) 填空;(ii) 词汇翻译。人类评估和自动模型的结果表明,图像是文本上下文的有用补充。该数据集将有助于研究词汇在自由形式句子中的视觉关联,并可在 https://doi.org/10.5281/zenodo.5034604 下通过创意共享许可获得。

MultiSubs:大规模多模态和多语言数据集 | 最新论文 | HyperAI超神经