InternLM-XComposer2 : Maîtrise de la composition et de la compréhension libre de texte et d’image dans les grands modèles vision-langage

Nous présentons InternLM-XComposer2, un modèle de vision-langage de pointe, particulièrement performant dans la composition et la compréhension de contenus textuels et images libres. Ce modèle va au-delà de la compréhension classique vision-langage, en étant capable de concevoir de manière habile des contenus mixtes texte-image entremêlés à partir de diverses entrées telles que des schémas, des spécifications textuelles détaillées ou des images de référence, permettant ainsi une création de contenu hautement personnalisable. InternLM-XComposer2 propose une approche appelée Partial LoRA (PLoRA), qui applique des paramètres LoRA supplémentaires exclusivement aux jetons d’image, préservant ainsi l’intégrité des connaissances linguistiques pré-entraînées, tout en établissant un équilibre entre une compréhension visuelle précise et une composition textuelle d’une qualité littéraire remarquable. Les résultats expérimentaux démontrent l’infériorité d’InternLM-XComposer2 basé sur InternLM2-7B dans la génération de contenus multimodaux longs de haute qualité, ainsi que sa performance exceptionnelle en compréhension vision-langage sur diverses évaluations, où il surpasse significativement les modèles multimodaux existants, et égale voire dépasse GPT-4V et Gemini Pro dans certains cas. Cela met en évidence sa maîtrise remarquable dans le domaine de la compréhension multimodale. La série de modèles InternLM-XComposer2 à 7 milliards de paramètres est désormais disponible publiquement sur https://github.com/InternLM/InternLM-XComposer.