HyperAIHyperAI
il y a 2 mois

Infinity-MM : Amélioration des performances multimodales grâce à des données d'instruction de grande échelle et de haute qualité

Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
Infinity-MM : Amélioration des performances multimodales grâce à des données d'instruction de grande échelle et de haute qualité
Résumé

Les modèles vision-langage (VLMs) ont récemment connu des progrès significatifs, mais l'échelle limitée et la qualité insuffisante des données d'instruction open source entravent leur performance par rapport aux modèles closed source. Dans cette étude, nous abordons cette limitation en introduisant Infinity-MM, un jeu de données multimodal à grande échelle comprenant 40 millions d'échantillons, amélioré grâce à un filtrage rigoureux de la qualité et une déduplication stricte. Nous proposons également une méthode de génération d'instructions synthétiques basée sur des VLMs open source, utilisant des annotations d'images détaillées et une génération de questions diversifiée. En utilisant ces données, nous avons formé un VLM doté de 2 milliards de paramètres, Aquila-VL-2B, qui atteint des performances de pointe (SOTA) pour les modèles de taille similaire. Cela démontre que l'élargissement des données d'instruction et la génération de données synthétiques peuvent considérablement améliorer les performances des modèles open source.