HyperAIHyperAI
il y a 2 mois

InternLM-XComposer : Un grand modèle vision-langue pour la compréhension et la composition avancées de texte et d'image

Zhang, Pan ; Dong, Xiaoyi ; Wang, Bin ; Cao, Yuhang ; Xu, Chao ; Ouyang, Linke ; Zhao, Zhiyuan ; Duan, Haodong ; Zhang, Songyang ; Ding, Shuangrui ; Zhang, Wenwei ; Yan, Hang ; Zhang, Xinyue ; Li, Wei ; Li, Jingwen ; Chen, Kai ; He, Conghui ; Zhang, Xingcheng ; Qiao, Yu ; Lin, Dahua ; Wang, Jiaqi
InternLM-XComposer : Un grand modèle vision-langue pour la compréhension et la composition avancées de texte et d'image
Résumé

Nous proposons InternLM-XComposer, un grand modèle de vision-langage qui permet une compréhension et une composition avancées d'images et de texte. L'innovation de notre modèle est mise en évidence par trois propriétés attractives : 1) Composition Texte-Image Intercalaire : InternLM-XComposer peut générer sans effort des articles cohérents et contextuels qui intègrent les images de manière fluide, offrant une expérience de lecture plus engageante et immersive. Il suffit de fournir une instruction d'écriture, et notre système générera le manuscrit correspondant. Il peut intelligemment identifier les zones du texte où les images amélioreraient le contenu et insérer automatiquement les candidats visuels les plus appropriés.2) Compréhension avec des Connaissances Multilingues Riches : La compréhension texte-image est renforcée par l'entraînement sur une base de données multimodale multilingue étendue, utilisant des stratégies soigneusement élaborées, ce qui permet une compréhension profonde du contenu visuel.3) Performance à la Pointe de la Technologie : Notre modèle obtient régulièrement des résultats à la pointe de la technologie sur diverses benchmarks principales pour les modèles fondamentaux de vision-langage, notamment le MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench et Tiny LVLM. En raison de l'absence de métriques établies pour évaluer quantitativement la composition texte-image, nous avons élaboré une procédure d'évaluation robuste comprenant à la fois des évaluations humaines et GPT4-Vision (GPT4-V) pour garantir la fiabilité. Notamment, notre InternLM-XComposer obtient des scores compétitifs en composition texte-image comparables aux solutions publiques, y compris GPT4-V et GPT3.5.Ensemble, InternLM-XComposer fusionne harmonieusement une compréhension avancée du texte et des images ainsi qu'une composition efficace, révolutionnant l'interaction vision-langage et offrant de nouvelles perspectives et opportunités. La série de modèles InternLM-XComposer est disponible au public sur https://github.com/InternLM/InternLM-XComposer.