HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Légendes Conceptuelles (CC12M)

Date

il y a 5 ans

Organisation

Google

URL de publication

ai.google.com

URL du document

www.aclweb.org

Featured Image

L'ensemble de données a été publié par Google en 2018 et comprend 3,3 millions de paires image-légende. L’équipe a créé un pipeline automatisé pour extraire, filtrer et traiter les paires d’images et de texte candidates à partir de milliards de pages Web.

L'ensemble de données est divisé en ensembles d'entraînement, de validation et de test. L'ensemble de formation se compose de 3 318 333 paires URL/titre d'image, et le nombre total de types de jetons (c'est-à-dire de vocabulaire) dans le titre est de 51 201. Chaque titre contient en moyenne 10,3 jetons et l'ensemble de validation se compose de 15 840 paires URL/titre d'image.

De plus, l’équipe a fourni des étiquettes d’images générées par machine pour 2 007 528 paires URL/titre d’image dans l’ensemble de formation.

Articles connexes :

Légendes conceptuelles : un ensemble de données de texte alternatif d'image nettoyé et hypernymé pour le sous-titrage automatique des images

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données De Légendes Conceptuelles (CC12M) | Jeux de données | HyperAI