Ensemble De Données De Paires Image-texte CC12M
Date
il y a 3 ans
URL de publication
Licence
其他

CC12M (Conceptual 12M) est un ensemble de données de paires image-texte spécialement conçu pour la pré-formation de la vision et du langage. L'ensemble de données contient 12 millions de paires image-texte. Comparé à CC3M, cet ensemble de données est plus performant en matière de reconnaissance visuelle à longue traîne pour plusieurs tâches en aval.