HyperAIHyperAI

Command Palette

Search for a command to run...

Console

COYO-700M 画像とテキストのペア データセット

日付

2年前

サイズ

104.46 GB

組織

公開URL

github.com

Featured Image

COYO-700M は、7 億 4,700 万の画像とテキストのペアと、さまざまなモデルのトレーニングにおける使いやすさを向上させる他の多くのメタ属性を含む大規模なデータセットです。このデータセットは、以前の視覚的および言語的データセットと同様の戦略に従い、HTML ドキュメント内の多くの有益な代替テキストとそれに関連する画像のペアを収集します。

データ収集プロセス

2020 年 10 月から 2021 年 8 月にかけて、研究チームは CommonCrawl の HTML ドキュメント内の代替テキストと画像ソースのペアを約 100 億件収集し、最小限のコストで画像およびテキスト レベルのフィルタリング プロセスを通じて有益でないペアを排除しました。この図は、研究チームのデータ収集プロセスの概要を示しています。

coyo-700m.torrent
シード処理 1ダウンロード中 0完了 154総ダウンロード数 350
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最適価格のGPUでAI開発を加速。

AI共同コーディング
すぐに利用可能な GPU
最適価格

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています