il y a 17 jours

Wukong : Un référentiel pré-entraîné multimodal à grande échelle chinois de 100 millions de LLMs

Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, Chunjing Xu, Hang Xu

Voir les détails de l'article

Wukong : Un référentiel pré-entraîné multimodal à grande échelle chinois de 100 millions de LLMs

Résumé

Les modèles de pré-entraînement vision-langage (VLP) ont démontré des performances remarquables sur de nombreuses tâches en aval. Leur succès repose fortement sur l’échelle des jeux de données multimodaux utilisés pour le pré-entraînement. Toutefois, le manque de grands jeux de données et de benchmarks en chinois freine le développement des modèles VLP chinois ainsi que les applications multilingues plus larges. Dans ce travail, nous présentons un grand jeu de données chinois multimodal, nommé Wukong, comprenant 100 millions de paires image-texte chinoises collectées à partir du web. Wukong vise à établir une référence pour comparer différentes méthodes de pré-entraînement multimodal, afin de favoriser la recherche et le développement communautaire en VLP. En outre, nous mettons à disposition une série de modèles pré-entraînés avec divers encodeurs d’images (ViT-B/ViT-L/SwinT), tout en intégrant des techniques avancées de pré-entraînement telles que le réglage verrouillé image-texte, la similarité par jeton dans l’apprentissage contrastif, et l’interaction réduite entre jetons. Des expériences étendues et une évaluation comparative sur différentes tâches en aval sont également fournies, incluant un nouveau jeu de test image-texte chinois le plus vaste à être vérifié par des humains. Les résultats montrent que Wukong peut servir de jeu de données pré-entraîné prometteur et de référence pour diverses méthodes d’apprentissage multimodal en chinois. Pour la tâche de classification d’image en zéro-shot sur 10 jeux de données, le modèle $Wukong_{ViT-L}$ atteint une précision moyenne de 73,03 %. Pour la tâche de recherche image-texte, il obtient un rappel moyen de 71,6 % sur AIC-ICC, soit une amélioration de 12,9 % par rapport à WenLan 2.0. De plus, nos modèles Wukong sont évalués sur des tâches en aval avec d’autres variantes sur plusieurs jeux de données, tels que Flickr8K-CN, Flickr-30K-CN, COCO-CN, etc. Pour plus d’informations, veuillez consulter : https://wukong-dataset.github.io/wukong-dataset/.