Expansion des limites de performance des modèles multimodaux open-source grâce au scaling du modèle, des données et au test-time

Nous présentons InternVL 2.5, une série avancée de modèles linguistiques multimodaux (MLLM) fondée sur InternVL 2.0, tout en conservant son architecture de base tout en introduisant des améliorations significatives dans les stratégies d'entraînement et d'évaluation, ainsi qu'une qualité accrue des données. Dans ce travail, nous explorons de manière systématique la relation entre l’agrandissement du modèle et ses performances, en analysant les tendances observées dans les encodeurs visuels, les modèles linguistiques, la taille des jeux de données et les configurations d’évaluation en temps de test. À travers des évaluations approfondies sur une large gamme de benchmarks — incluant le raisonnement interdisciplinaire, la compréhension de documents, la compréhension de plusieurs images ou vidéos, la compréhension du monde réel, la détection d’hallucinations multimodales, l’alignement visuel, les capacités multilingues et le traitement purement linguistique — InternVL 2.5 démontre des performances compétitives, rivalisant avec des modèles commerciaux de pointe tels que GPT-4o et Claude-3.5-Sonnet. Notamment, notre modèle est le premier MLLM open-source à dépasser 70 % sur le benchmark MMMU, réalisant une amélioration de 3,7 points grâce au raisonnement en chaîne (Chain-of-Thought, CoT), ce qui témoigne d’un fort potentiel d’amélioration par échelle en temps de test. Nous espérons que ce modèle contribuera au développement de la communauté open-source en établissant de nouvelles normes pour la conception et l’application des systèmes d’intelligence artificielle multimodaux. Démonstration sur HuggingFace : https://huggingface.co/spaces/OpenGVLab/InternVL