HyperAIHyperAI
il y a 11 jours

InternLM-XComposer2 : Maîtrise de la composition et de la compréhension libre de texte et d’image dans les grands modèles vision-langage

Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
InternLM-XComposer2 : Maîtrise de la composition et de la compréhension libre de texte et d’image dans les grands modèles vision-langage
Résumé

Nous présentons InternLM-XComposer2, un modèle de vision-langage de pointe, particulièrement performant dans la composition et la compréhension de contenus textuels et images libres. Ce modèle va au-delà de la compréhension classique vision-langage, en étant capable de concevoir de manière habile des contenus mixtes texte-image entremêlés à partir de diverses entrées telles que des schémas, des spécifications textuelles détaillées ou des images de référence, permettant ainsi une création de contenu hautement personnalisable. InternLM-XComposer2 propose une approche appelée Partial LoRA (PLoRA), qui applique des paramètres LoRA supplémentaires exclusivement aux jetons d’image, préservant ainsi l’intégrité des connaissances linguistiques pré-entraînées, tout en établissant un équilibre entre une compréhension visuelle précise et une composition textuelle d’une qualité littéraire remarquable. Les résultats expérimentaux démontrent l’infériorité d’InternLM-XComposer2 basé sur InternLM2-7B dans la génération de contenus multimodaux longs de haute qualité, ainsi que sa performance exceptionnelle en compréhension vision-langage sur diverses évaluations, où il surpasse significativement les modèles multimodaux existants, et égale voire dépasse GPT-4V et Gemini Pro dans certains cas. Cela met en évidence sa maîtrise remarquable dans le domaine de la compréhension multimodale. La série de modèles InternLM-XComposer2 à 7 milliards de paramètres est désormais disponible publiquement sur https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer2 : Maîtrise de la composition et de la compréhension libre de texte et d’image dans les grands modèles vision-langage | Articles de recherche récents | HyperAI