COYO-700M 画像とテキストのペア データセット

COYO-700M は、7 億 4,700 万の画像とテキストのペアと、さまざまなモデルのトレーニングにおける使いやすさを向上させる他の多くのメタ属性を含む大規模なデータセットです。このデータセットは、以前の視覚的および言語的データセットと同様の戦略に従い、HTML ドキュメント内の多くの有益な代替テキストとそれに関連する画像のペアを収集します。
データ収集プロセス
2020 年 10 月から 2021 年 8 月にかけて、研究チームは CommonCrawl の HTML ドキュメント内の代替テキストと画像ソースのペアを約 100 億件収集し、最小限のコストで画像およびテキスト レベルのフィルタリング プロセスを通じて有益でないペアを排除しました。この図は、研究チームのデータ収集プロセスの概要を示しています。
coyo-700m.torrent
シーディング 2ダウンロード中 1ダウンロード完了 82総ダウンロード数 155