Ovis2.5 기술 보고서

우리는 원본 해상도 기반 시각 인식과 강력한 다중모달 추론 능력을 갖춘 Ovis2의 후속 모델인 Ovis2.5를 소개한다. Ovis2.5는 이미지를 원본의 변수 해상도에서 직접 처리하는 원본 해상도 기반 비전 트랜스포머를 통합하여 고정 해상도 타일링으로 인한 성능 저하를 방지하고, 세부 정보와 전반적인 구조를 모두 유지한다. 이는 복잡한 차트와 같은 시각적으로 밀도 높은 콘텐츠 처리에 있어 핵심적인 요소이다. 추론 능력을 강화하기 위해, 모델은 선형적인 사고 체인을 넘어서는 역량, 즉 자기 검증과 수정을 포함한 반성(Reflection)을 학습하도록 훈련되었다. 이 고도화된 능력은 추론 시점에서 선택적 ‘사고 모드(Thinking Mode)’로 제공되며, 사용자가 어려운 입력에 대해 정확도를 높이기 위해 지연 시간을 희생할 수 있도록 한다. 모델은 기초 시각 및 다중모달 사전 훈련을 시작으로, 대규모 지시 조정을 거쳐 DPO(Direct Preference Optimization)와 GRPO(Generalized Reward Policy Optimization)를 활용한 정렬 및 추론 능력 향상까지 단계적으로 능력을 쌓는 종합적인 5단계 교육 커리큘럼을 통해 훈련된다. 이러한 업그레이드를 효율적으로 확장하기 위해 다중모달 데이터 패킹과 하이브리드 병렬 처리 기법을 활용하여 전반적인 엔드투엔드 속도 향상을 달성하였다. 본 연구에서는 두 가지 오픈소스 모델, Ovis2.5-9B 및 Ovis2.5-2B를 공개한다. 후자는 Ovis2의 ‘작은 모델, 큰 성능’ 철학을 이어받아 자원 제약이 있는 온디바이스 환경에 적합하다. OpenCompass 다중모달 리더보드에서 Ovis2.5-9B는 평균 점수 78.3을 기록하며, 이전 버전인 Ovis2-8B에 비해 상당한 성능 향상을 보였으며, 파라미터 수 40B 미만 범위 내에서 오픈소스 다중모달 대규모 언어 모델(MLLM) 중 최고 성능을 달성하였다. Ovis2.5-2B는 73.9점으로, 해당 규모의 모델 중 최고 성능(SOTA)을 기록하였다. 종합 점수 외에도 Ovis2.5는 STEM 기준 평가에서 선도적인 성과를 내며, 지문 기반 인식(Grounding) 및 영상 처리 과제에서도 뛰어난 능력을 보이고, 복잡한 차트 분석 분야에서 자신의 규모에 걸맞은 오픈소스 최고 성능을 달성하였다.