HyperAIHyperAI

Command Palette

Search for a command to run...

À quel point sommes-nous de GPT-4V ? Réduire l'écart avec les modèles multimodaux commerciaux grâce à des suites open source

Résumé

Dans ce rapport, nous présentons InternVL 1.5, un modèle linguistique à grande échelle multimodal (MLLM) open source, conçu pour réduire l’écart de performance entre les modèles open source et les modèles commerciaux propriétaires en matière de compréhension multimodale. Nous proposons trois améliorations simples mais efficaces : (1) Encodage visuel puissant : nous avons exploré une stratégie d’apprentissage continu pour le modèle fondamental visuel à grande échelle — InternViT-6B —, ce qui a renforcé ses capacités de compréhension visuelle et permis sa réutilisation dans divers modèles de langage à grande échelle (LLM). (2) Résolution dynamique élevée : nous divisons les images en tuiles de taille variant de 1 à 40, chacune mesurant 448×448 pixels, en fonction du rapport d’aspect et de la résolution des images d’entrée, permettant ainsi un traitement d’entrée jusqu’à une résolution de 4K. (3) Jeux de données bilingues de haute qualité : nous avons soigneusement collecté un jeu de données bilingue de haute qualité couvrant des scènes courantes, des images de documents, et enrichi celles-ci de paires question-réponse en anglais et en chinois, ce qui améliore significativement les performances sur les tâches liées à la reconnaissance optique de caractères (OCR) et au chinois. Nous évaluons InternVL 1.5 à travers une série de benchmarks et d’études comparatives. Par rapport à la fois aux modèles open source et aux modèles propriétaires, InternVL 1.5 affiche des performances compétitives, atteignant des résultats de pointe dans 8 des 18 benchmarks testés. Le code source a été rendu public sur GitHub : https://github.com/OpenGVLab/InternVL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp