このデータセットは、2018 年に Google によってリリースされました。このデータセットには、合計 330 万の画像とキャプションのペアが含まれています。チームは、数十億の Web ページから候補となる画像とテキストのペアを抽出、フィルター、処理する自動パイプラインを作成しました。
データ セットはトレーニング セット、検証セット、テスト セットに分かれており、トレーニング セットは 3,318,333 個の画像 URL/タイトルのペアで構成され、タイトル内のトークン タイプ (語彙) の総数は 51,201 です。各タイトルには平均 10.3 個のトークンが含まれており、検証セットは 15,840 個の画像 URL/タイトルのペアで構成されます。
さらに、チームはトレーニング セット内の 2,007,528 個の画像 URL/キャプション ペアに対して機械生成された画像ラベルを提供しました。
関連論文:
「概念的なキャプション: 自動画像キャプション用のクリーン化されたハイパーネーム化された画像代替テキスト データセット」