19 小时前

Ovis2.5 技术报告

Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
Ovis2.5 技术报告
摘要

我们提出 Ovis2.5,作为 Ovis2 的继任者,专为原生分辨率视觉感知与强大的多模态推理而设计。Ovis2.5 集成了一种原生分辨率视觉 Transformer,能够以图像的原始、可变分辨率直接处理图像,避免了固定分辨率分块带来的质量退化,同时完整保留了精细细节与全局布局——这对复杂图表等视觉信息密集的内容尤为关键。为强化推理能力,我们训练模型突破传统的线性思维链(chain-of-thought)模式,引入“反思”机制,包括自我检查与修正。这一高级能力在推理阶段以可选的“思考模式”形式开放,使用户可根据需求在延迟与复杂输入下的准确性之间进行权衡。该模型采用五阶段综合训练课程,逐步构建其各项能力。训练流程始于基础视觉与多模态预训练,随后经历大规模指令微调,最终通过 DPO(Direct Preference Optimization)与 GRPO(Generalized Reward Policy Optimization)实现对齐优化与推理能力增强。为高效扩展这些升级,我们采用了多模态数据打包(multimodal data packing)与混合并行(hybrid parallelism)技术,显著提升了端到端的推理速度。我们开源发布两个模型:Ovis2.5-9B 与 Ovis2.5-2B。后者延续了 Ovis2 “小模型、大性能”的设计理念,特别适用于资源受限、本地设备部署的场景。在 OpenCompass 多模态基准测试榜单上,Ovis2.5-9B 平均得分达 78.3,相较于其前代模型 Ovis2-8B 实现了显著提升,并在参数量低于 400 亿的开源多模态大语言模型(MLLMs)中达到当前最优(SOTA)水平;Ovis2.5-2B 得分为 73.9,成为同规模模型中的开源 SOTA。除整体得分领先外,Ovis2.5 在 STEM 基准测试中表现卓越,具备强大的视觉定位(grounding)与视频理解能力,并在复杂图表分析任务上实现了其规模下的开源 SOTA 成绩。

Ovis2.5 技术报告 | 最新论文 | HyperAI超神经