CC12M image-text pairs 数据集

该数据集暂无下载资源提供,我们正在积极的准备提供更多的数据集

CC12M (Conceptual 12M) 是一个图像文本对的数据集,专门用于视觉和语言预训练。数据集包含 1200 万个图像文本对。与 CC3M 相比,对于 multiple downstream task 该数据集在长尾视觉识别方面表现更佳。