Conceptual 12M : Pousser le pré-entraînement image-texte à grande échelle du web pour reconnaître des concepts visuels de queue longue

La disponibilité de grands jeux de données pour la génération de légendes d’images et la réponse à des questions visuelles a contribué de manière significative aux succès récents de la pré-formation vision-langage. Toutefois, ces jeux de données sont souvent collectés selon des contraintes trop rigides héritées de leurs tâches initiales (par exemple, la génération de légendes d’images), ce qui limite à la fois l’échelle et la diversité des jeux de données obtenus. Nous allons plus loin dans l’exploration des limites des données pour la pré-formation vision-langage en assouplissant le pipeline de collecte utilisé dans Conceptual Captions 3M (CC3M) [Sharma et al. 2018], et présentons Conceptual 12M (CC12M), un jeu de données comprenant 12 millions de paires image-texte spécifiquement conçu pour la pré-formation vision-langage. Nous menons une analyse approfondie de ce jeu de données et évaluons son efficacité par rapport à CC3M sur plusieurs tâches en aval, en mettant particulièrement l’accent sur la reconnaissance visuelle en queue longue. Nos résultats montrent clairement les avantages de l’augmentation de l’échelle des données de pré-formation pour les tâches vision-langage, comme le démontre l’obtention de nouveaux records sur les benchmarks nocaps et Conceptual Captions.