HyperAIHyperAI

Command Palette

Search for a command to run...

InternLM-XComposer2 : Maîtrise de la composition et de la compréhension libre de texte et d’image dans les grands modèles vision-langage

Résumé

Nous présentons InternLM-XComposer2, un modèle de vision-langage de pointe, particulièrement performant dans la composition et la compréhension de contenus textuels et images libres. Ce modèle va au-delà de la compréhension classique vision-langage, en étant capable de concevoir de manière habile des contenus mixtes texte-image entremêlés à partir de diverses entrées telles que des schémas, des spécifications textuelles détaillées ou des images de référence, permettant ainsi une création de contenu hautement personnalisable. InternLM-XComposer2 propose une approche appelée Partial LoRA (PLoRA), qui applique des paramètres LoRA supplémentaires exclusivement aux jetons d’image, préservant ainsi l’intégrité des connaissances linguistiques pré-entraînées, tout en établissant un équilibre entre une compréhension visuelle précise et une composition textuelle d’une qualité littéraire remarquable. Les résultats expérimentaux démontrent l’infériorité d’InternLM-XComposer2 basé sur InternLM2-7B dans la génération de contenus multimodaux longs de haute qualité, ainsi que sa performance exceptionnelle en compréhension vision-langage sur diverses évaluations, où il surpasse significativement les modèles multimodaux existants, et égale voire dépasse GPT-4V et Gemini Pro dans certains cas. Cela met en évidence sa maîtrise remarquable dans le domaine de la compréhension multimodale. La série de modèles InternLM-XComposer2 à 7 milliards de paramètres est désormais disponible publiquement sur https://github.com/InternLM/InternLM-XComposer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp