HyperAI超神经

COYO-700M 图像-文本对数据集

日期

1 年前

大小

104.46 GB

机构

发布地址

github.com

特色图像

COYO-700M 是一个大型数据集,包含 7.47 亿个图像文本对以及许多其他元属性,以提高训练各种模型的可用性。该数据集遵循与以前的视觉和语言数据集类似的策略,收集 HTML 文档中许多信息丰富的替代文本及其相关图像对。

数据收集过程

从 2020 年 10 月到 2021 年 8 月,研究团队在 CommonCrawl 中收集了大约 100 亿对 HTML 文档中的替代文本和图像源,并通过图像和文本级别的过滤过程以最小的成本消除了无信息对。图中概述了研究团队的数据收集过程。

coyo-700m.torrent
做种 1正在下载 1已完成 79总下载次数 146
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB