InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent prenant en charge des entrées et sorties à contexte long

Nous présentons InternLM-XComposer-2.5 (IXC-2.5), un modèle de langage visuel polyvalent qui prend en charge des entrées et sorties à contexte long. IXC-2.5 se distingue par ses performances dans diverses applications de compréhension et de composition texte-image, atteignant un niveau de capacités comparable à celui de GPT-4V avec seulement 7 milliards de paramètres dans son backend LLM. Formé sur 24 000 contextes texte-image entrelacés, il peut s'étendre sans heurt à des contextes longs de 96 000 éléments grâce à l'extrapolation RoPE. Cette capacité à gérer des contextes longs permet à IXC-2.5 d'exceller dans les tâches nécessitant des entrées et sorties à contexte étendu.Par rapport à sa version précédente 2.0, InternLM-XComposer-2.5 présente trois améliorations majeures en matière de compréhension vision-langage : (1) la Compréhension Ultra-Haute Résolution, (2) la Compréhension Vidéo Fine-Grainée, et (3) le Dialogue Multi-Tours Multi-Images. Outre la compréhension, IXC-2.5 s'étend à deux applications prometteuses utilisant des paramètres LoRA supplémentaires pour la composition texte-image : (1) la Création de Pages Web et (2) la Composition d'Articles Texte-Image de Haute Qualité.InternLM-XComposer-2.5 a été évalué sur 28 benchmarks, surpassant les modèles open-source existants sur 16 benchmarks. Il dépasse également ou se rapproche étroitement des performances de GPT-4V et Gemini Pro sur 16 tâches clés. Le modèle InternLM-XComposer-2.5 est disponible au public sur https://github.com/InternLM/InternLM-XComposer.