HyperAIHyperAI
il y a 2 mois

InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent prenant en charge des entrées et sorties à contexte long

Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent prenant en charge des entrées et sorties à contexte long
Résumé

Nous présentons InternLM-XComposer-2.5 (IXC-2.5), un modèle de langage visuel polyvalent qui prend en charge des entrées et sorties à contexte long. IXC-2.5 se distingue par ses performances dans diverses applications de compréhension et de composition texte-image, atteignant un niveau de capacités comparable à celui de GPT-4V avec seulement 7 milliards de paramètres dans son backend LLM. Formé sur 24 000 contextes texte-image entrelacés, il peut s'étendre sans heurt à des contextes longs de 96 000 éléments grâce à l'extrapolation RoPE. Cette capacité à gérer des contextes longs permet à IXC-2.5 d'exceller dans les tâches nécessitant des entrées et sorties à contexte étendu.Par rapport à sa version précédente 2.0, InternLM-XComposer-2.5 présente trois améliorations majeures en matière de compréhension vision-langage : (1) la Compréhension Ultra-Haute Résolution, (2) la Compréhension Vidéo Fine-Grainée, et (3) le Dialogue Multi-Tours Multi-Images. Outre la compréhension, IXC-2.5 s'étend à deux applications prometteuses utilisant des paramètres LoRA supplémentaires pour la composition texte-image : (1) la Création de Pages Web et (2) la Composition d'Articles Texte-Image de Haute Qualité.InternLM-XComposer-2.5 a été évalué sur 28 benchmarks, surpassant les modèles open-source existants sur 16 benchmarks. Il dépasse également ou se rapproche étroitement des performances de GPT-4V et Gemini Pro sur 16 tâches clés. Le modèle InternLM-XComposer-2.5 est disponible au public sur https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent prenant en charge des entrées et sorties à contexte long | Articles de recherche récents | HyperAI