À quelle distance sommes-nous de GPT-4V ? Réduire l’écart avec les modèles multimodaux commerciaux grâce à des suites open-source

Dans ce rapport, nous présentons InternVL 1.5, un modèle linguistique à grande échelle multimodal (MLLM) open source conçu pour réduire l’écart de performance entre les modèles open source et les modèles commerciaux propriétaires en matière de compréhension multimodale. Nous introduisons trois améliorations simples mais efficaces : (1) Encodage visuel puissant : nous avons exploré une stratégie d’apprentissage continu pour le modèle fondamental visuel à grande échelle — InternViT-6B —, ce qui renforce significativement ses capacités de compréhension visuelle et permet sa transférabilité et son réemploi dans divers modèles de langage à grande échelle (LLM). (2) Haute résolution dynamique : nous divisons les images en tuiles de taille variant de 1 à 40, chacune mesurant 448×448 pixels, en fonction du rapport d’aspect et de la résolution des images d’entrée, permettant ainsi une prise en charge d’images d’entrée jusqu’à une résolution de 4K. (3) Jeux de données bilingues de haute qualité : nous avons soigneusement collecté un jeu de données bilingue de haute qualité couvrant des scènes courantes, des images de documents, et annoté celles-ci avec des paires question-réponse en anglais et en chinois, ce qui améliore considérablement les performances sur les tâches liées à la reconnaissance optique de caractères (OCR) et au chinois. Nous évaluons InternVL 1.5 à travers une série de benchmarks et d’études comparatives. Par rapport à la fois aux modèles open source et aux modèles propriétaires, InternVL 1.5 affiche des performances compétitives, atteignant des résultats de pointe dans 8 des 18 benchmarks évalués. Le code source a été publié à l’adresse suivante : https://github.com/OpenGVLab/InternVL.