WIT 画像テキスト データセット

WIT (Wikipedia ベースの Image Text の正式名) は、大規模なマルチモーダルおよび多言語データ セットです。このデータセットは、3,760 万個のエンティティが豊富な画像とテキストのサンプルの厳選されたコレクションで構成されており、ウィキペディアの 108 言語での 1,150 万個の一意の画像が含まれています。このデータセットの規模により、マルチモーダル機械学習モデルの事前トレーニング データセットとして使用できます。
WIT には 4 つの独自の利点があります。
- WIT は、画像テキストのサンプル数に基づく最大のマルチモーダル データセットです。
- 100 を超える言語がカバーされており (言語ごとに少なくとも 12,000 の例が含まれます)、多くの画像にはクロスランゲージ テキストが提供されています。
- 以前のデータセットと比較して、WIT はより多様な概念と現実世界のエンティティのセットを表します。
- WIT は、非常に困難な現実世界のテスト セットを提供します。
WIT.torrent
シーディング 0ダウンロード中 3ダウンロード完了 382総ダウンロード数 560