13일 전
InternLM-XComposer2: 시각-언어 대규모 모델에서 자유형 텍스트-이미지 구성 및 이해 능력 습득
Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang

초록
우리는 자유형 텍스트-이미지 조합 및 이해에 뛰어난 최첨단 시각-언어 모델인 InternLM-XComposer2를 소개한다. 이 모델은 전통적인 시각-언어 이해를 넘어, 개요, 세부 텍스트 사양, 참조 이미지와 같은 다양한 입력으로부터 텍스트와 이미지가 혼합된 콘텐츠를 효과적으로 생성함으로써 매우 유연한 콘텐츠 제작을 가능하게 한다. InternLM-XComposer2는 이미지 토큰에만 추가적인 LoRA 파라미터를 적용하는 부분적 LoRA(PLoRA) 방식을 제안하여, 사전 훈련된 언어 지식의 무결성을 유지하면서도 정밀한 시각 이해와 문학적 감각을 갖춘 텍스트 생성 간의 균형을 이루었다. 실험 결과에 따르면, InternLM2-7B 기반의 InternLM-XComposer2는 고해상도의 긴 텍스트를 포함한 다중 모달 콘텐츠 생성에서 뛰어난 품질을 보이며, 다양한 벤치마크에서 뛰어난 시각-언어 이해 성능을 나타내며, 기존 다중 모달 모델을 크게 능가할 뿐 아니라 특정 평가에서는 GPT-4V 및 Gemini Pro와 견줄 수 있거나 이를 초월하는 성능을 보였다. 이는 본 모델이 다중 모달 이해 분야에서 매우 뛰어난 능력을 지녔음을 보여준다. 7B 파라미터 규모를 가진 InternLM-XComposer2 모델 시리즈는 공개적으로 https://github.com/InternLM/InternLM-XComposer 에서 이용 가능하다.