HyperAIHyperAI

Command Palette

Search for a command to run...

Conceptual 12M : Pousser le pré-entraînement image-texte à grande échelle du web pour reconnaître des concepts visuels de queue longue

Soravit Changpinyo Piyush Sharma Nan Ding Radu Soricut

Résumé

La disponibilité de grands jeux de données pour la génération de légendes d’images et la réponse à des questions visuelles a contribué de manière significative aux succès récents de la pré-formation vision-langage. Toutefois, ces jeux de données sont souvent collectés selon des contraintes trop rigides héritées de leurs tâches initiales (par exemple, la génération de légendes d’images), ce qui limite à la fois l’échelle et la diversité des jeux de données obtenus. Nous allons plus loin dans l’exploration des limites des données pour la pré-formation vision-langage en assouplissant le pipeline de collecte utilisé dans Conceptual Captions 3M (CC3M) [Sharma et al. 2018], et présentons Conceptual 12M (CC12M), un jeu de données comprenant 12 millions de paires image-texte spécifiquement conçu pour la pré-formation vision-langage. Nous menons une analyse approfondie de ce jeu de données et évaluons son efficacité par rapport à CC3M sur plusieurs tâches en aval, en mettant particulièrement l’accent sur la reconnaissance visuelle en queue longue. Nos résultats montrent clairement les avantages de l’augmentation de l’échelle des données de pré-formation pour les tâches vision-langage, comme le démontre l’obtention de nouveaux records sur les benchmarks nocaps et Conceptual Captions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp