InternLM-XComposer: 고급 텍스트-이미지 이해 및 구성에 대한 시각-언어 대형 모델

우리는 고급 이미지-텍스트 이해 및 구성이 가능한 비전-언어 대형 모델인 InternLM-XComposer를 제안합니다. 우리 모델의 혁신성은 다음과 같은 세 가지 매력적인 특징으로 강조됩니다: 1) 교차 텍스트-이미지 구성: InternLM-XComposer는 이미지를 자연스럽게 통합하여 일관성 있고 맥락에 맞는 기사를 쉽게 생성할 수 있어, 더 흥미롭고 몰입감 있는 독서 경험을 제공합니다. 단순히 작성 지침을 제공하면, 시스템은 해당 원고를 생성하며, 텍스트에서 이미지가 내용을 강화할 수 있는 부분을 지능적으로 식별하고 가장 적절한 시각적 후보를 자동으로 삽입합니다. 2) 풍부한 다국어 지식을 활용한 이해: 텍스트-이미지 이해는 꼼꼼하게 설계된 전략을 통해 다양한 언어와 모드로 구성된 방대한 데이터베이스에서 학습함으로써 시각적 콘텐츠에 대한 깊은 이해를 가능하게 합니다. 3) 최첨단 성능: 우리 모델은 MME 벤치마크, MMBench, MMBench-CN, Seed-Bench, CCBench (중국 문화 벤치마크), QBench 및 Tiny LVLM 등 다양한 주요 비전-언어 기초 모델 벤치마크에서 일관되게 최첨단 결과를 달성합니다. 이미지-텍스트 구성을 정량적으로 평가하기 위한 확립된 지표가 부족하기 때문에, 우리는 인간 평가자와 GPT4-Vision (GPT4-V)를 포함하는 견고한 평가 절차를 개발하여 신뢰성을 보장하였습니다. 특히, 우리의 InternLM-XComposer는 GPT4-V와 GPT3.5를 포함한 공개 솔루션과 비교해도 경쟁력 있는 이미지-텍스트 구성 점수를 달성하였습니다. 종합적으로, InternLM-XComposer는 고급 이미지-텍스트 이해와 구성을 원활하게 결합하여 비전-언어 상호작용을 혁신하고 새로운 통찰과 기회를 제공합니다. InternLM-XComposer 모델 시리즈는 https://github.com/InternLM/InternLM-XComposer에서 공개적으로 이용 가능합니다.