HyperAIHyperAI
il y a 17 jours

MegaPairs : Synthèse de Données Massives pour la Recherche Multimodale Universelle

Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
MegaPairs : Synthèse de Données Massives pour la Recherche Multimodale Universelle
Résumé

Malgré la croissance rapide de la demande en recherche multimodale, les progrès dans ce domaine restent sévèrement freinés par le manque de données d'entraînement. Dans cet article, nous introduisons MegaPairs, une nouvelle méthode de synthèse de données qui exploite les modèles vision-langage (VLM) et des images provenant de domaines ouverts, ainsi qu’un vaste ensemble de données synthétiques généré à partir de cette méthode. Notre analyse empirique montre que MegaPairs produit des données de haute qualité, permettant au modèle de recherche multimodale de surpasser significativement le modèle de base entraîné sur 70 fois plus de données provenant des jeux de données existants. En outre, puisque MegaPairs ne repose que sur des corpus d’images généraux et des VLM open-source, elle peut être facilement mise à l’échelle, permettant ainsi des améliorations continues de la performance de recherche. À ce stade, nous avons généré plus de 26 millions d’instances d’entraînement et entraîné plusieurs modèles de tailles variées à partir de ces données. Ces nouveaux modèles atteignent des performances de pointe en mode zéro-shot sur 4 benchmarks populaires de recherche d’images composées (CIR) et les meilleures performances globales sur les 36 jeux de données fournis par MMEB. Ils démontrent également des améliorations notables de performance après une fine-tuning en aval supplémentaire. L’ensemble de données que nous avons produit, les modèles bien entraînés ainsi que le pipeline de synthèse de données seront rendus accessibles au public afin de faciliter le développement futur de ce domaine.

MegaPairs : Synthèse de Données Massives pour la Recherche Multimodale Universelle | Articles de recherche récents | HyperAI