HyperAIHyperAI

Command Palette

Search for a command to run...

M2-Encoder : Améliorer la compréhension bilingue des images et du texte par une préformation à grande échelle et efficace

Qingpei Guo* Furong Xu* Hanxiao Zhang* Wang Ren* Ziping Ma Lin Ju Jian Wang Jingdong Chen Ming Yang†

Résumé

Les modèles de base vision-langage tels que CLIP ont révolutionné le domaine de l'intelligence artificielle. Néanmoins, les modèles VLM (Vision-Language Model) multilingues, par exemple en chinois et en anglais, ont connu un retard dû à la relative rareté de grands ensembles de données préentraînés. Dans ce contexte, nous présentons un ensemble de données bilingue (chinois-anglais) complet BM-6B comprenant plus de 6 milliards de paires image-texte, visant à améliorer les modèles fondamentaux multimodaux pour une meilleure compréhension des images dans les deux langues. Pour gérer un tel volume de données, nous proposons une nouvelle approche d'agrégation groupée pour le calcul de la perte contrastive image-texte, qui réduit considérablement les coûts de communication et les exigences en mémoire GPU, facilitant une augmentation de 60 % de la vitesse d'entraînement. Nous préentraînons une série de modèles fondamentaux bilingues image-texte avec une capacité améliorée de compréhension fine-grain sur BM-6B ; les modèles résultants, nommés M2M^2M2-Encoders (prononcé « M-Carré »), établissent de nouveaux standards dans les deux langues pour les tâches de recherche et classification multimodales. Notamment, notre modèle M2M^2M2-Encoder-10B le plus grand a atteint des précisions au premier rang de 88,5 % sur ImageNet et 80,7 % sur ImageNet-CN dans un cadre de classification sans supervision (zero-shot), surpassant respectivement les méthodes SOTA (State-of-the-Art) précédemment rapportées de 2,2 % et 21,1 %. La série M2M^2M2-Encoder représente l'un des ensembles de modèles fondamentaux bilingues image-texte les plus complets à ce jour ; nous mettons donc ces modèles à disposition de la communauté scientifique pour une exploration et un développement ultérieurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
M2-Encoder : Améliorer la compréhension bilingue des images et du texte par une préformation à grande échelle et efficace | Articles | HyperAI