CC12M 画像とテキストのペア データセット

CC12M (Conceptual 12M) は、視覚および言語の事前トレーニング用に設計された画像とテキストのペアのデータセットです。データセットには 1,200 万の画像とテキストのペアが含まれています。 CC3M と比較して、このデータセットは複数の下流タスクのロングテール視覚認識で優れたパフォーマンスを発揮します。
CC12M (Conceptual 12M) は、視覚および言語の事前トレーニング用に設計された画像とテキストのペアのデータセットです。データセットには 1,200 万の画像とテキストのペアが含まれています。 CC3M と比較して、このデータセットは複数の下流タスクのロングテール視覚認識で優れたパフォーマンスを発揮します。