概念的なキャプション データセット (CC12M) 概念的なデータセット

下载帮助
特色图像

このデータセットは、2018 年に Google によってリリースされました。このデータセットには、合計 330 万の画像とキャプションのペアが含まれています。チームは、数十億の Web ページから候補となる画像とテキストのペアを抽出、フィルター、処理する自動パイプラインを作成しました。

データ セットはトレーニング セット、検証セット、テスト セットに分かれており、トレーニング セットは 3,318,333 個の画像 URL/タイトルのペアで構成され、タイトル内のトークン タイプ (語彙) の総数は 51,201 です。各タイトルには平均 10.3 個のトークンが含まれており、検証セットは 15,840 個の画像 URL/タイトルのペアで構成されます。

さらに、チームはトレーニング セット内の 2,007,528 個の画像 URL/キャプション ペアに対して機械生成された画像ラベルを提供しました。

関連論文:

「概念的なキャプション: 自動画像キャプション用のクリーン化されたハイパーネーム化された画像代替テキスト データセット」