HyperAIHyperAI
il y a 2 mois

M2-Encoder : Améliorer la compréhension bilingue des images et du texte par une préformation à grande échelle et efficace

Qingpei Guo; Furong Xu; Hanxiao Zhang; Wang Ren; Ziping Ma; Lin Ju; Jian Wang; Jingdong Chen; Ming Yang
M2-Encoder : Améliorer la compréhension bilingue des images et du texte par une préformation à grande échelle et efficace
Résumé

Les modèles de base vision-langage tels que CLIP ont révolutionné le domaine de l'intelligence artificielle. Néanmoins, les modèles VLM (Vision-Language Model) multilingues, par exemple en chinois et en anglais, ont connu un retard dû à la relative rareté de grands ensembles de données préentraînés. Dans ce contexte, nous présentons un ensemble de données bilingue (chinois-anglais) complet BM-6B comprenant plus de 6 milliards de paires image-texte, visant à améliorer les modèles fondamentaux multimodaux pour une meilleure compréhension des images dans les deux langues. Pour gérer un tel volume de données, nous proposons une nouvelle approche d'agrégation groupée pour le calcul de la perte contrastive image-texte, qui réduit considérablement les coûts de communication et les exigences en mémoire GPU, facilitant une augmentation de 60 % de la vitesse d'entraînement. Nous préentraînons une série de modèles fondamentaux bilingues image-texte avec une capacité améliorée de compréhension fine-grain sur BM-6B ; les modèles résultants, nommés $M^2$-Encoders (prononcé « M-Carré »), établissent de nouveaux standards dans les deux langues pour les tâches de recherche et classification multimodales. Notamment, notre modèle $M^2$-Encoder-10B le plus grand a atteint des précisions au premier rang de 88,5 % sur ImageNet et 80,7 % sur ImageNet-CN dans un cadre de classification sans supervision (zero-shot), surpassant respectivement les méthodes SOTA (State-of-the-Art) précédemment rapportées de 2,2 % et 21,1 %. La série $M^2$-Encoder représente l'un des ensembles de modèles fondamentaux bilingues image-texte les plus complets à ce jour ; nous mettons donc ces modèles à disposition de la communauté scientifique pour une exploration et un développement ultérieurs.