Command Palette
Search for a command to run...
À quel point sommes-nous de GPT-4V ? Réduire l'écart avec les modèles multimodaux commerciaux grâce à des suites open source
À quel point sommes-nous de GPT-4V ? Réduire l'écart avec les modèles multimodaux commerciaux grâce à des suites open source
Résumé
Dans ce rapport, nous présentons InternVL 1.5, un modèle linguistique à grande échelle multimodal (MLLM) open source, conçu pour réduire l’écart de performance entre les modèles open source et les modèles commerciaux propriétaires en matière de compréhension multimodale. Nous proposons trois améliorations simples mais efficaces : (1) Encodage visuel puissant : nous avons exploré une stratégie d’apprentissage continu pour le modèle fondamental visuel à grande échelle — InternViT-6B —, ce qui a renforcé ses capacités de compréhension visuelle et permis sa réutilisation dans divers modèles de langage à grande échelle (LLM). (2) Résolution dynamique élevée : nous divisons les images en tuiles de taille variant de 1 à 40, chacune mesurant 448×448 pixels, en fonction du rapport d’aspect et de la résolution des images d’entrée, permettant ainsi un traitement d’entrée jusqu’à une résolution de 4K. (3) Jeux de données bilingues de haute qualité : nous avons soigneusement collecté un jeu de données bilingue de haute qualité couvrant des scènes courantes, des images de documents, et enrichi celles-ci de paires question-réponse en anglais et en chinois, ce qui améliore significativement les performances sur les tâches liées à la reconnaissance optique de caractères (OCR) et au chinois. Nous évaluons InternVL 1.5 à travers une série de benchmarks et d’études comparatives. Par rapport à la fois aux modèles open source et aux modèles propriétaires, InternVL 1.5 affiche des performances compétitives, atteignant des résultats de pointe dans 8 des 18 benchmarks testés. Le code source a été rendu public sur GitHub : https://github.com/OpenGVLab/InternVL.