HyperAIHyperAI

Command Palette

Search for a command to run...

Chinese CLIP : Préentraînement contrastif vision-langage en chinois

An Yang Junshu Pan Junyang Lin Rui Men Yichang Zhang Jingren Zhou Chang Zhou

Résumé

Le succès considérable de CLIP (Radford et al., 2021) a stimulé la recherche et l'application de l'apprentissage contrastif pour le préentraînement vision-langage. Dans ce travail, nous construisons un grand jeu de données d'images et de textes en chinois, dont la majeure partie des données provient de jeux de données accessibles au public, et nous préentraînons des modèles CLIP en chinois sur ce nouveau jeu de données. Nous avons développé cinq modèles CLIP en chinois de tailles variées, allant de 77 à 958 millions de paramètres. En outre, nous proposons une méthode de préentraînement en deux étapes : le modèle est d'abord entraîné en gelant l'encodeur d'images, puis entraîné en optimisant tous ses paramètres, afin d'améliorer ses performances. Nos expériences approfondies démontrent que le modèle CLIP en chinois atteint des performances de pointe sur les benchmarks MUGE, Flickr30K-CN et COCO-CN, dans les configurations d'apprentissage zéro-shot et de fine-tuning, et parvient à des performances compétitives en classification d'images zéro-shot, selon l'évaluation sur le benchmark ELEVATER (Li et al., 2022). Nous avons publié nos codes, modèles et démonstrations à l'adresse suivante : https://github.com/OFA-Sys/Chinese-CLIP


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Chinese CLIP : Préentraînement contrastif vision-langage en chinois | Articles | HyperAI