CC12M image-text pairs 数据集

本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)

CC12M (Conceptual 12M) 是一个图像文本对的数据集,专门用于视觉和语言预训练。数据集包含 1200 万个图像文本对。与 CC3M 相比,对于 multiple downstream task 该数据集在长尾视觉识别方面表现更佳。