2 个月前
OBELICS:一个开放的网络规模过滤数据集,包含交错的图像-文本文档
Laurençon, Hugo ; Saulnier, Lucile ; Tronchon, Léo ; Bekman, Stas ; Singh, Amanpreet ; Lozhkov, Anton ; Wang, Thomas ; Karamcheti, Siddharth ; Rush, Alexander M. ; Kiela, Douwe ; Cord, Matthieu ; Sanh, Victor

摘要
大型多模态模型在自然文档上训练时,其性能优于仅在图像-文本对上训练的模型,这些自然文档中图像和文本交替出现。然而,用于训练这些模型的数据集尚未发布,且收集过程也未完全明确。我们介绍了OBELICS数据集,这是一个开放的、网络规模的过滤数据集,包含从Common Crawl提取的1.41亿个网页、3.53亿张相关图像和1150亿个文本标记。我们详细描述了数据集的创建过程,提出了全面的过滤规则,并对数据集的内容进行了分析。为了验证OBELICS的有效性,我们训练了两个参数量分别为90亿和800亿的视觉与语言模型,命名为IDEFICS,并在不同的多模态基准测试中取得了具有竞争力的性能。我们发布了该数据集、模型和代码。