HyperAIHyperAI

Command Palette

Search for a command to run...

Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test

Résumé

Nous présentons InternVL 2.5, une série avancée de modèles linguistiques à grande échelle multimodaux (MLLM), construite sur la base d’InternVL 2.0, tout en conservant son architecture fondamentale tout en introduisant des améliorations significatives dans les stratégies d’entraînement et d’évaluation, ainsi qu’une qualité accrue des données. Dans ce travail, nous examinons de manière approfondie la relation entre l’agrandissement du modèle et ses performances, en explorant systématiquement les tendances d’évolution en matière d’encodeurs visuels, de modèles linguistiques, de tailles de jeux de données et de configurations d’évaluation en temps de test. Grâce à des évaluations étendues sur une large gamme de benchmarks — incluant le raisonnement interdisciplinaire, la compréhension de documents, la compréhension de plusieurs images/vidéos, la compréhension du monde réel, la détection d’hallucinations multimodales, l’ancrage visuel, les capacités multilingues et le traitement purement linguistique — InternVL 2.5 affiche des performances compétitives, rivalisant avec des modèles commerciaux de pointe tels que GPT-4o et Claude-3.5-Sonnet. Notamment, notre modèle est le premier MLLM open source à dépasser 70 % sur le benchmark MMMU, en réalisant une amélioration de 3,7 points grâce au raisonnement en chaîne (Chain-of-Thought, CoT), et démontre un fort potentiel d’extension en temps de test. Nous espérons que ce modèle contribuera à la communauté open source en établissant de nouvelles normes pour le développement et l’application des systèmes d’intelligence artificielle multimodaux. Démonstration HuggingFace : https://huggingface.co/spaces/OpenGVLab/InternVL


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Élargir les limites de performance des modèles multimodaux open source par une mise à l'échelle du modèle, des données et du test | Articles | HyperAI