il y a 18 jours

Chinese CLIP : Préentraînement contrastif vision-langage en chinois

An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou

Résumé

Le succès considérable de CLIP (Radford et al., 2021) a stimulé la recherche et l'application de l'apprentissage contrastif pour le préentraînement vision-langage. Dans ce travail, nous construisons un grand jeu de données d'images et de textes en chinois, dont la majeure partie des données provient de jeux de données accessibles au public, et nous préentraînons des modèles CLIP en chinois sur ce nouveau jeu de données. Nous avons développé cinq modèles CLIP en chinois de tailles variées, allant de 77 à 958 millions de paramètres. En outre, nous proposons une méthode de préentraînement en deux étapes : le modèle est d'abord entraîné en gelant l'encodeur d'images, puis entraîné en optimisant tous ses paramètres, afin d'améliorer ses performances. Nos expériences approfondies démontrent que le modèle CLIP en chinois atteint des performances de pointe sur les benchmarks MUGE, Flickr30K-CN et COCO-CN, dans les configurations d'apprentissage zéro-shot et de fine-tuning, et parvient à des performances compétitives en classification d'images zéro-shot, selon l'évaluation sur le benchmark ELEVATER (Li et al., 2022). Nous avons publié nos codes, modèles et démonstrations à l'adresse suivante : https://github.com/OFA-Sys/Chinese-CLIP