2달 전

InternLM-XComposer-2.5: 다양한 용도의 대형 시각 언어 모델 장문 맥락 입력 및 출력 지원

Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

논문 세부 정보 보기

InternLM-XComposer-2.5: 다양한 용도의 대형 시각 언어 모델
장문 맥락 입력 및 출력 지원

초록

우리는 다양한 텍스트-이미지 이해 및 구성 응용 프로그램을 지원하는 장문 입력과 출력을 처리할 수 있는 다목적 대형 시각 언어 모델인 InternLM-XComposer-2.5 (IXC-2.5)를 소개합니다. IXC-2.5는 단지 7B 규모의 LLM 백엔드로 GPT-4V 수준의 능력을 달성하며, 24K 교차 이미지-텍스트 컨텍스트로 학습되어 RoPE 외삽을 통해 96K 긴 컨텍스트까지 원활하게 확장할 수 있습니다. 이러한 긴 컨텍스트 기능은 IXC-2.5가 광범위한 입력과 출력 컨텍스트가 필요한 작업에서 뛰어난 성능을 발휘할 수 있게 합니다.IXC-2.5는 이전 버전인 2.0에 비해 시각 언어 이해 측면에서 세 가지 주요 업그레이드를 제공합니다: (1) 초고해상도 이해, (2) 세밀한 비디오 이해, (3) 다단계 다이미지 대화입니다. 이해뿐만 아니라, IXC-2.5는 추가 LoRA 매개변수를 사용하여 텍스트-이미지 구성을 위한 두 가지 매력적인 응용 프로그램으로 확장됩니다: (1) 웹페이지 제작, (2) 고품질 텍스트-이미지 기사 작성입니다.IXC-2.5는 28개 벤치마크에서 평가되었으며, 16개 벤치마크에서 기존 오픈 소스 최신 모델들을 능가했습니다. 또한 16개 주요 작업에서 GPT-4V와 Gemini Pro를 능가하거나 거의 경쟁력을 보였습니다. InternLM-XComposer-2.5는 공식적으로 https://github.com/InternLM/InternLM-XComposer 에서 이용 가능합니다.