日期
大小
机构
发布地址
github.com
标签
分类
COYO-700M 是一个大型数据集,包含 7.47 亿个图像文本对以及许多其他元属性,以提高训练各种模型的可用性。该数据集遵循与以前的视觉和语言数据集类似的策略,收集 HTML 文档中许多信息丰富的替代文本及其相关图像对。
从 2020 年 10 月到 2021 年 8 月,研究团队在 CommonCrawl 中收集了大约 100 亿对 HTML 文档中的替代文本和图像源,并通过图像和文本级别的过滤过程以最小的成本消除了无信息对。图中概述了研究团队的数据收集过程。