17일 전

오픈소스 다중모달 모델의 성능 경계 확장: 모델, 데이터, 테스트 시각 스케일링을 통한 접근

Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
오픈소스 다중모달 모델의 성능 경계 확장: 모델, 데이터, 테스트 시각 스케일링을 통한 접근
초록

우리는 InternVL 2.5를 소개합니다. 이는 InternVL 2.0을 기반으로 하되, 핵심 모델 아키텍처를 유지하면서 훈련 및 평가 전략, 데이터 품질 측면에서 획기적인 개선을 이룬 고도화된 다모달 대규모 언어 모델(Multimodal Large Language Model, MLLM) 시리즈입니다. 본 연구에서는 모델 확장성과 성능 간의 관계를 탐구하며, 비전 인코더, 언어 모델, 데이터셋 크기, 테스트 시 구성 등 다양한 요소의 성능 추세를 체계적으로 분석하였습니다. 다양한 벤치마크, 즉 다학제적 추론, 문서 이해, 다중 이미지/영상 이해, 현실 세계 이해, 다모달 환각 탐지, 시각적 지문화, 다국어 능력, 순수 언어 처리 등에 걸쳐 광범위한 평가를 수행한 결과, InternVL 2.5는 GPT-4o 및 Claude-3.5-Sonnet과 같은 선도적인 상용 모델과 견줄 만한 경쟁력을 보였습니다. 특히, 본 모델은 MMMU 벤치마크에서 70%를 초과하는 성능을 달성한 최초의 오픈소스 MLLM로, 사고의 흐름(Chain-of-Thought, CoT) 추론을 통해 3.7점의 성능 향상을 이뤄냈으며, 테스트 시 확장성에 대한 강력한 잠재력을 보여주었습니다. 우리는 이 모델이 오픈소스 커뮤니티에 기여하며, 다모달 AI 시스템 개발 및 응용의 새로운 기준을 제시할 수 있기를 기대합니다. 허깅페이스 디모는 다음 링크에서 확인할 수 있습니다: https://huggingface.co/spaces/OpenGVLab/InternVL

오픈소스 다중모달 모델의 성능 경계 확장: 모델, 데이터, 테스트 시각 스케일링을 통한 접근 | 최신 연구 논문 | HyperAI초신경