CC12M (Conceptual 12M) 是一个图像文本对的数据集,专门用于视觉和语言预训练。数据集包含 1200 万个图像文本对。与 CC3M 相比,对于 multiple downstream task 该数据集在长尾视觉识别方面表现更佳。
CC12M image-text pairs 数据集
本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)
感谢您下载 CC12M image-text pairs 数据集!
本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。
获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。
感谢您下载 CC12M image-text pairs 数据集!

相关数据集推荐
Spot-the-diff 图像描述数据集
Spot-the-diff 数据集由 13,192 个图像对,以及相应的人工提供的文字标注组成。标注阐述了两个图像之间的差异。

SentiCap 图像情感描述数据集
SentiCap 数据集包含带有积极和消极情绪描述的图片。这些情感描述是由作者通过重写事实描述而生成的。总共有 2,000 多条情感描述。 SentiCap 数据集中的图像主要取自于 MS COCO 数据集。从情感的极性出发为图像提供标注,为每幅图像形成 “正面 (positiv…

Image Paragraph Captioning 图像描述数据集
Image Paragraph Captioning 数据集可用于评估为图像生成的描述片段。该数据集包含来自 Visual Genome 数据集的 19,561 张图片。每张图片包含一个段落。训练/评价/测试集分别包含14,575、2,487、2,489 张图像。 每张图像还包含…
