24 天前

SAIL-VL2 技术报告

Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
SAIL-VL2 技术报告
摘要

我们提出SAIL-VL2,这是一个面向全面多模态理解与推理的开源视觉语言基础模型(LVM)。作为SAIL-VL的继任者,SAIL-VL2在2B和8B参数规模下,于多样化的图像与视频基准测试中均达到当前最优性能,展现出从细粒度感知到复杂推理的强劲能力。其卓越表现主要得益于三项核心创新。首先,我们构建了一个大规模数据筛选与优化流程,结合评分与过滤策略,显著提升了图像描述、OCR、问答(QA)及视频数据在质量与分布上的均衡性,从而有效提升训练效率。其次,提出一种渐进式训练框架:从强大的预训练视觉编码器(SAIL-ViT)出发,经历多模态预训练阶段,最终融合“思维融合”式SFT-RL混合范式,系统性地增强模型能力。第三,架构层面实现突破,不仅支持密集型大语言模型(LLM),更引入高效的稀疏专家混合(Mixture-of-Experts, MoE)设计,兼顾性能与计算效率。得益于上述贡献,SAIL-VL2在106个数据集上展现出具有竞争力的综合表现,并在MMMU与MathVista等高难度推理基准上取得领先成果。此外,在OpenCompass排行榜上,SAIL-VL2-2B在4B参数规模的开源模型中位列第一,同时为开源多模态社区提供了一个高效、可扩展的基础模型平台。