HyperAIHyperAI

Command Palette

Search for a command to run...

概念的なキャプション データセット (CC12M) 概念的なデータセット

日付

5年前

データセット構成

グーグル

公開URL

ai.google.com

Featured Image

このデータセットは、2018 年に Google によってリリースされました。このデータセットには、合計 330 万の画像とキャプションのペアが含まれています。チームは、数十億の Web ページから候補となる画像とテキストのペアを抽出、フィルター、処理する自動パイプラインを作成しました。

データ セットはトレーニング セット、検証セット、テスト セットに分かれており、トレーニング セットは 3,318,333 個の画像 URL/タイトルのペアで構成され、タイトル内のトークン タイプ (語彙) の総数は 51,201 です。各タイトルには平均 10.3 個のトークンが含まれており、検証セットは 15,840 個の画像 URL/タイトルのペアで構成されます。

さらに、チームはトレーニング セット内の 2,007,528 個の画像 URL/キャプション ペアに対して機械生成された画像ラベルを提供しました。

関連論文:

「概念的なキャプション: 自動画像キャプション用のクリーン化されたハイパーネーム化された画像代替テキスト データセット」

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
概念的なキャプション データセット (CC12M) 概念的なデータセット | データセット | HyperAI超神経