24일 전

SAIL-VL2 기술 보고서

Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
SAIL-VL2 기술 보고서
초록

우리는 종합적인 다중모달 이해 및 추론을 위한 오픈형 시각-언어 기초 모델(SAIL-VL2)을 소개한다. SAIL-VL의 후속 모델인 SAIL-VL2는 다양한 이미지 및 영상 벤치마크에서 2B 및 8B 파라미터 규모에서 최고 수준의 성능을 달성하며, 세부적인 인지에서 복잡한 추론에 이르기까지 강력한 능력을 입증한다. 이 모델의 효과성을 이끄는 세 가지 핵심 혁신이 있다. 첫째, 캡션 생성, OCR, 질의응답(QA), 영상 데이터 등 다양한 데이터 유형에 대해 점수 산정 및 필터링 전략을 적용한 대규모 데이터 정제 파이프라인을 도입하여 데이터의 품질과 분포를 향상시켰으며, 이는 훈련 효율성을 높이는 데 기여한다. 둘째, 강력한 사전 훈련된 시각 인코더(SAIL-ViT)로 시작하여 다중모달 사전 훈련을 거치고, 마지막으로 사고 융합(SFT-RL 하이브리드) 파라다임으로 이어지는 점진적 훈련 프레임워크를 도입함으로써 모델의 능력을 체계적으로 강화한다. 셋째, 밀집형 대규모 언어 모델(LLM)을 넘어서 효율적인 희소형 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처 설계를 도입하여 성능과 효율성을 동시에 확보한다. 이러한 기여를 바탕으로 SAIL-VL2는 106개의 데이터셋에서 경쟁력 있는 성능을 보이며, MMMU 및 MathVista와 같은 도전적인 추론 벤치마크에서도 최고 수준의 성과를 기록한다. 더불어 OpenCompass 랭킹에서 SAIL-VL2-2B는 공식적으로 발표된 4B 파라미터 규모 내에서 가장 높은 순위를 기록하며, 오픈소스 다중모달 커뮤니티를 위한 효율적이고 확장 가능한 기초 모델로서의 역할을 수행하고 있다.