InternVL : Élargissement des modèles fondamentaux de vision et alignement pour les tâches visuelles-linguistiques génériques

La croissance exponentielle des grands modèles de langage (LLMs) a ouvert de nombreuses possibilités pour les systèmes d'IA multimodale générale (AGI). Cependant, les progrès réalisés dans les modèles fondamentaux de vision et de vision-langue, qui sont également des éléments critiques de l'AGI multimodale, n'ont pas suivi le rythme des LLMs. Dans ce travail, nous concevons un grand modèle fondamental de vision-langue (InternVL), qui augmente la taille du modèle fondamental de vision à 6 milliards de paramètres et le fait progressivement converger avec le LLM en utilisant des données image-texte à l'échelle du web provenant de diverses sources. Ce modèle peut être appliqué de manière généralisée et atteindre des performances d'avant-garde sur 32 benchmarks visuels-linguistiques génériques, y compris des tâches de perception visuelle telles que la reconnaissance au niveau des images ou des pixels, des tâches de vision-langue telles que la classification d'images/vidéos à zéro-shot, la recherche d'images/vidéos-texte à zéro-shot, et peut être lié aux LLMs pour créer des systèmes de dialogue multimodaux. Il possède d'excellentes capacités visuelles et peut constituer une bonne alternative au ViT-22B. Nous espérons que notre recherche contribuera au développement des grands modèles multimodaux. Le code source et les modèles sont disponibles sur https://github.com/OpenGVLab/InternVL.