HyperAIHyperAI

Command Palette

Search for a command to run...

MegaPairs : synthèse de données massives pour la recherche multimodale universelle

Junjie Zhou Zheng Liu Ze Liu Shitao Xiao Yueze Wang Bo Zhao Chen Jason Zhang Defu Lian Yongping Xiong

Résumé

Malgré la croissance rapide de la demande en recherche multimodale, les progrès dans ce domaine restent fortement freinés par le manque de données d'entraînement. Dans cet article, nous introduisons MegaPairs, une nouvelle méthode de synthèse de données qui exploite les modèles vision-langage (VLM) et des images provenant de domaines ouverts, ainsi qu'un vaste ensemble de données synthétiques généré à partir de cette méthode. Notre analyse empirique montre que MegaPairs produit des données de haute qualité, permettant au modèle de recherche multimodale d’outrepasser significativement le modèle de base entraîné sur 70 fois plus de données issues des jeux de données existants. De plus, puisque MegaPairs ne repose que sur des corpora d'images générales et des VLM open source, elle peut être facilement mise à l'échelle, permettant des améliorations continues de la performance de recherche. À ce stade, nous avons généré plus de 26 millions d'instances d'entraînement et entraîné plusieurs modèles de tailles variées à partir de ces données. Ces nouveaux modèles atteignent des performances de pointe en mode zéro-shot sur 4 benchmarks populaires de recherche d'images composées (CIR) et offrent la meilleure performance globale sur les 36 jeux de données fournis par MMEB. Ils démontrent également des améliorations notables de performance grâce à un fine-tuning supplémentaire en aval. L'ensemble de données produit, les modèles bien entraînés ainsi que le pipeline de synthèse de données seront rendus disponibles au public afin de faciliter le développement futur de ce domaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp