오픈소스 다중모달 모델의 성능 경계 확장: 모델, 데이터, 테스트 시각 스케일링을 통한 접근

우리는 InternVL 2.5를 소개합니다. 이는 InternVL 2.0을 기반으로 하되, 핵심 모델 아키텍처를 유지하면서 훈련 및 평가 전략, 데이터 품질 측면에서 획기적인 개선을 이룬 고도화된 다모달 대규모 언어 모델(Multimodal Large Language Model, MLLM) 시리즈입니다. 본 연구에서는 모델 확장성과 성능 간의 관계를 탐구하며, 비전 인코더, 언어 모델, 데이터셋 크기, 테스트 시 구성 등 다양한 요소의 성능 추세를 체계적으로 분석하였습니다. 다양한 벤치마크, 즉 다학제적 추론, 문서 이해, 다중 이미지/영상 이해, 현실 세계 이해, 다모달 환각 탐지, 시각적 지문화, 다국어 능력, 순수 언어 처리 등에 걸쳐 광범위한 평가를 수행한 결과, InternVL 2.5는 GPT-4o 및 Claude-3.5-Sonnet과 같은 선도적인 상용 모델과 견줄 만한 경쟁력을 보였습니다. 특히, 본 모델은 MMMU 벤치마크에서 70%를 초과하는 성능을 달성한 최초의 오픈소스 MLLM로, 사고의 흐름(Chain-of-Thought, CoT) 추론을 통해 3.7점의 성능 향상을 이뤄냈으며, 테스트 시 확장성에 대한 강력한 잠재력을 보여주었습니다. 우리는 이 모델이 오픈소스 커뮤니티에 기여하며, 다모달 AI 시스템 개발 및 응용의 새로운 기준을 제시할 수 있기를 기대합니다. 허깅페이스 디모는 다음 링크에서 확인할 수 있습니다: https://huggingface.co/spaces/OpenGVLab/InternVL