HyperAIHyperAI

Command Palette

Search for a command to run...

COYO-700M 图像-文本对数据集

Date

2 年前

Size

104.46 GB

Organization

Publish URL

github.com

Featured Image

COYO-700M 是一个大型数据集,包含 7.47 亿个图像文本对以及许多其他元属性,以提高训练各种模型的可用性。该数据集遵循与以前的视觉和语言数据集类似的策略,收集 HTML 文档中许多信息丰富的替代文本及其相关图像对。

数据收集过程

从 2020 年 10 月到 2021 年 8 月,研究团队在 CommonCrawl 中收集了大约 100 亿对 HTML 文档中的替代文本和图像源,并通过图像和文本级别的过滤过程以最小的成本消除了无信息对。图中概述了研究团队的数据收集过程。

coyo-700m.torrent
Seeding 1Downloading 0Completed 155Total Downloads 352
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供