HyperAI

Ensemble De Données De Légendes Conceptuelles (CC12M)

Date

il y a 4 ans

Organisation

Google

URL de publication

ai.google.com

Aide au téléchargement
特色图像

L'ensemble de données a été publié par Google en 2018 et comprend 3,3 millions de paires image-légende. L’équipe a créé un pipeline automatisé pour extraire, filtrer et traiter les paires d’images et de texte candidates à partir de milliards de pages Web.

L'ensemble de données est divisé en ensembles d'entraînement, de validation et de test. L'ensemble de formation se compose de 3 318 333 paires URL/titre d'image, et le nombre total de types de jetons (c'est-à-dire de vocabulaire) dans le titre est de 51 201. Chaque titre contient en moyenne 10,3 jetons et l'ensemble de validation se compose de 15 840 paires URL/titre d'image.

De plus, l’équipe a fourni des étiquettes d’images générées par machine pour 2 007 528 paires URL/titre d’image dans l’ensemble de formation.

Articles connexes :

Légendes conceptuelles : un ensemble de données de texte alternatif d'image nettoyé et hypernymé pour le sous-titrage automatique des images