Ovis2.5 技术报告

我们提出 Ovis2.5,作为 Ovis2 的继任者,专为原生分辨率视觉感知与强大的多模态推理而设计。Ovis2.5 集成了一种原生分辨率视觉 Transformer,能够以图像的原始、可变分辨率直接处理图像,避免了固定分辨率分块带来的质量退化,同时完整保留了精细细节与全局布局——这对复杂图表等视觉信息密集的内容尤为关键。为强化推理能力,我们训练模型突破传统的线性思维链(chain-of-thought)模式,引入“反思”机制,包括自我检查与修正。这一高级能力在推理阶段以可选的“思考模式”形式开放,使用户可根据需求在延迟与复杂输入下的准确性之间进行权衡。该模型采用五阶段综合训练课程,逐步构建其各项能力。训练流程始于基础视觉与多模态预训练,随后经历大规模指令微调,最终通过 DPO(Direct Preference Optimization)与 GRPO(Generalized Reward Policy Optimization)实现对齐优化与推理能力增强。为高效扩展这些升级,我们采用了多模态数据打包(multimodal data packing)与混合并行(hybrid parallelism)技术,显著提升了端到端的推理速度。我们开源发布两个模型:Ovis2.5-9B 与 Ovis2.5-2B。后者延续了 Ovis2 “小模型、大性能”的设计理念,特别适用于资源受限、本地设备部署的场景。在 OpenCompass 多模态基准测试榜单上,Ovis2.5-9B 平均得分达 78.3,相较于其前代模型 Ovis2-8B 实现了显著提升,并在参数量低于 400 亿的开源多模态大语言模型(MLLMs)中达到当前最优(SOTA)水平;Ovis2.5-2B 得分为 73.9,成为同规模模型中的开源 SOTA。除整体得分领先外,Ovis2.5 在 STEM 基准测试中表现卓越,具备强大的视觉定位(grounding)与视频理解能力,并在复杂图表分析任务上实现了其规模下的开源 SOTA 成绩。