Ensemble De Données De Légendes Conceptuelles (CC12M)
Date
URL de publication
Catégories

L'ensemble de données a été publié par Google en 2018 et comprend 3,3 millions de paires image-légende. L’équipe a créé un pipeline automatisé pour extraire, filtrer et traiter les paires d’images et de texte candidates à partir de milliards de pages Web.
L'ensemble de données est divisé en ensembles d'entraînement, de validation et de test. L'ensemble de formation se compose de 3 318 333 paires URL/titre d'image, et le nombre total de types de jetons (c'est-à-dire de vocabulaire) dans le titre est de 51 201. Chaque titre contient en moyenne 10,3 jetons et l'ensemble de validation se compose de 15 840 paires URL/titre d'image.
De plus, l’équipe a fourni des étiquettes d’images générées par machine pour 2 007 528 paires URL/titre d’image dans l’ensemble de formation.
Articles connexes :