CC12M image-text pairs 数据集

日期

2 年前

机构

发布地址

github.com

许可协议

其他

下载帮助
特色图像

CC12M (Conceptual 12M) 是一个图像文本对的数据集,专门用于视觉和语言预训练。数据集包含 1200 万个图像文本对。与 CC3M 相比,对于 multiple downstream task 该数据集在长尾视觉识别方面表现更佳。