HyperAIHyperAI

Command Palette

Search for a command to run...

Wukong : Un référentiel pré-entraîné multimodal à grande échelle chinois de 100 millions de LLMs

Résumé

Les modèles de pré-entraînement vision-langage (VLP) ont démontré des performances remarquables sur de nombreuses tâches en aval. Leur succès repose fortement sur l’échelle des jeux de données multimodaux utilisés pour le pré-entraînement. Toutefois, le manque de grands jeux de données et de benchmarks en chinois freine le développement des modèles VLP chinois ainsi que les applications multilingues plus larges. Dans ce travail, nous présentons un grand jeu de données chinois multimodal, nommé Wukong, comprenant 100 millions de paires image-texte chinoises collectées à partir du web. Wukong vise à établir une référence pour comparer différentes méthodes de pré-entraînement multimodal, afin de favoriser la recherche et le développement communautaire en VLP. En outre, nous mettons à disposition une série de modèles pré-entraînés avec divers encodeurs d’images (ViT-B/ViT-L/SwinT), tout en intégrant des techniques avancées de pré-entraînement telles que le réglage verrouillé image-texte, la similarité par jeton dans l’apprentissage contrastif, et l’interaction réduite entre jetons. Des expériences étendues et une évaluation comparative sur différentes tâches en aval sont également fournies, incluant un nouveau jeu de test image-texte chinois le plus vaste à être vérifié par des humains. Les résultats montrent que Wukong peut servir de jeu de données pré-entraîné prometteur et de référence pour diverses méthodes d’apprentissage multimodal en chinois. Pour la tâche de classification d’image en zéro-shot sur 10 jeux de données, le modèle WukongViTLWukong_{ViT-L}WukongViTL atteint une précision moyenne de 73,03 %. Pour la tâche de recherche image-texte, il obtient un rappel moyen de 71,6 % sur AIC-ICC, soit une amélioration de 12,9 % par rapport à WenLan 2.0. De plus, nos modèles Wukong sont évalués sur des tâches en aval avec d’autres variantes sur plusieurs jeux de données, tels que Flickr8K-CN, Flickr-30K-CN, COCO-CN, etc. Pour plus d’informations, veuillez consulter : https://wukong-dataset.github.io/wukong-dataset/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Wukong : Un référentiel pré-entraîné multimodal à grande échelle chinois de 100 millions de LLMs | Articles | HyperAI