HyperAIHyperAI

Command Palette

Search for a command to run...

InternVL : Élargissement des modèles fondamentaux de vision et alignement pour les tâches visuelles-linguistiques génériques

Résumé

La croissance exponentielle des grands modèles de langage (LLMs) a ouvert de nombreuses possibilités pour les systèmes d'IA multimodale générale (AGI). Cependant, les progrès réalisés dans les modèles fondamentaux de vision et de vision-langue, qui sont également des éléments critiques de l'AGI multimodale, n'ont pas suivi le rythme des LLMs. Dans ce travail, nous concevons un grand modèle fondamental de vision-langue (InternVL), qui augmente la taille du modèle fondamental de vision à 6 milliards de paramètres et le fait progressivement converger avec le LLM en utilisant des données image-texte à l'échelle du web provenant de diverses sources. Ce modèle peut être appliqué de manière généralisée et atteindre des performances d'avant-garde sur 32 benchmarks visuels-linguistiques génériques, y compris des tâches de perception visuelle telles que la reconnaissance au niveau des images ou des pixels, des tâches de vision-langue telles que la classification d'images/vidéos à zéro-shot, la recherche d'images/vidéos-texte à zéro-shot, et peut être lié aux LLMs pour créer des systèmes de dialogue multimodaux. Il possède d'excellentes capacités visuelles et peut constituer une bonne alternative au ViT-22B. Nous espérons que notre recherche contribuera au développement des grands modèles multimodaux. Le code source et les modèles sont disponibles sur https://github.com/OpenGVLab/InternVL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
InternVL : Élargissement des modèles fondamentaux de vision et alignement pour les tâches visuelles-linguistiques génériques | Articles | HyperAI