2달 전
InternVL: Vision Foundation 모델의 확장 및 일반적인 시각-언어 작업을 위한 정렬
Chen, Zhe ; Wu, Jiannan ; Wang, Wenhai ; Su, Weijie ; Chen, Guo ; Xing, Sen ; Zhong, Muyan ; Zhang, Qinglong ; Zhu, Xizhou ; Lu, Lewei ; Li, Bin ; Luo, Ping ; Lu, Tong ; Qiao, Yu ; Dai, Jifeng

초록
대형 언어 모델(LLM)의 지수적 성장은 다중모달 AGI 시스템에 대한 다양한 가능성들을 열어주었습니다. 그러나 이미지와 이미지-언어 기초 모델, 이들 역시 다중모달 AGI의 중요한 구성 요소임에도 불구하고, LLM과 같은 속도로 발전하지 못하고 있습니다. 본 연구에서는 대규모 이미지-언어 기초 모델(InternVL)을 설계하였습니다. 이 모델은 이미지 기초 모델을 60억 개의 파라미터로 확장하고, 웹 규모의 다양한 출처에서 얻은 이미지-텍스트 데이터를 사용하여 단계적으로 LLM과 맞춤화합니다. 이 모델은 이미지 수준 또는 픽셀 수준 인식 등의 시각 인식 과제, 제로샷 이미지/비디오 분류, 제로샷 이미지/비디오-텍스트 검색 등 32개의 일반적인 시각-언어 벤치마크에서 최고 수준의 성능을 달성할 수 있으며, LLM과 연결하여 다중모달 대화 시스템을 생성할 수 있습니다. 이 모델은 강력한 시각 능력을 갖추고 있어 ViT-22B의 좋은 대안이 될 수 있습니다. 우리는 본 연구가 다중모달 대형 모델의 발전에 기여하기를 바랍니다. 코드와 모델은 https://github.com/OpenGVLab/InternVL에서 제공됩니다.