WIT (Wikipedia ベースの Image Text の正式名) は、大規模なマルチモーダルおよび多言語データ セットです。このデータセットは、3,760 万個のエンティティが豊富な画像とテキストのサンプルの厳選されたコレクションで構成されており、ウィキペディアの 108 言語での 1,150 万個の一意の画像が含まれています。このデータセットの規模により、マルチモーダル機械学習モデルの事前トレーニング データセットとして使用できます。
WIT には 4 つの独自の利点があります。
做种 1
下载中 1
已完成 291
总下载 442