Command Palette
Search for a command to run...
Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test
Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test
Résumé
Nous présentons InternVL 2.5, une série avancée de modèles linguistiques à grande échelle multimodaux (MLLM), construite sur la base d’InternVL 2.0, tout en conservant son architecture fondamentale tout en introduisant des améliorations significatives dans les stratégies d’entraînement et d’évaluation, ainsi qu’une qualité accrue des données. Dans ce travail, nous examinons de manière approfondie la relation entre l’agrandissement du modèle et ses performances, en explorant systématiquement les tendances d’évolution en matière d’encodeurs visuels, de modèles linguistiques, de tailles de jeux de données et de configurations d’évaluation en temps de test. Grâce à des évaluations étendues sur une large gamme de benchmarks — incluant le raisonnement interdisciplinaire, la compréhension de documents, la compréhension de plusieurs images/vidéos, la compréhension du monde réel, la détection d’hallucinations multimodales, l’ancrage visuel, les capacités multilingues et le traitement purement linguistique — InternVL 2.5 affiche des performances compétitives, rivalisant avec des modèles commerciaux de pointe tels que GPT-4o et Claude-3.5-Sonnet. Notamment, notre modèle est le premier MLLM open source à dépasser 70 % sur le benchmark MMMU, en réalisant une amélioration de 3,7 points grâce au raisonnement en chaîne (Chain-of-Thought, CoT), et démontre un fort potentiel d’extension en temps de test. Nous espérons que ce modèle contribuera à la communauté open source en établissant de nouvelles normes pour le développement et l’application des systèmes d’intelligence artificielle multimodaux. Démonstration HuggingFace : https://huggingface.co/spaces/OpenGVLab/InternVL