il y a 17 jours

Expansion des limites de performance des modèles multimodaux open-source grâce au scaling du modèle, des données et au test-time

Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

Voir les détails de l'article

Expansion des limites de performance des modèles multimodaux open-source grâce au scaling du modèle, des données et au test-time

Résumé

Nous présentons InternVL 2.5, une série avancée de modèles linguistiques multimodaux (MLLM) fondée sur InternVL 2.0, tout en conservant son architecture de base tout en introduisant des améliorations significatives dans les stratégies d'entraînement et d'évaluation, ainsi qu'une qualité accrue des données. Dans ce travail, nous explorons de manière systématique la relation entre l’agrandissement du modèle et ses performances, en analysant les tendances observées dans les encodeurs visuels, les modèles linguistiques, la taille des jeux de données et les configurations d’évaluation en temps de test. À travers des évaluations approfondies sur une large gamme de benchmarks — incluant le raisonnement interdisciplinaire, la compréhension de documents, la compréhension de plusieurs images ou vidéos, la compréhension du monde réel, la détection d’hallucinations multimodales, l’alignement visuel, les capacités multilingues et le traitement purement linguistique — InternVL 2.5 démontre des performances compétitives, rivalisant avec des modèles commerciaux de pointe tels que GPT-4o et Claude-3.5-Sonnet. Notamment, notre modèle est le premier MLLM open-source à dépasser 70 % sur le benchmark MMMU, réalisant une amélioration de 3,7 points grâce au raisonnement en chaîne (Chain-of-Thought, CoT), ce qui témoigne d’un fort potentiel d’amélioration par échelle en temps de test. Nous espérons que ce modèle contribuera au développement de la communauté open-source en établissant de nouvelles normes pour la conception et l’application des systèmes d’intelligence artificielle multimodaux. Démonstration sur HuggingFace : https://huggingface.co/spaces/OpenGVLab/InternVL