Ovis2.5 技術報告

我々は、ネイティブ解像度での視覚認識と強力なマルチモーダル推論を目的として設計されたOvis2の後継モデル「Ovis2.5」を発表する。Ovis2.5は、画像をそのネイティブで可変な解像度で処理するネイティブ解像度対応のビジョントランスフォーマーを統合しており、固定解像度のタイル分割による品質低下を回避しつつ、細部の精細さと全体的な構成を保持する。これは、複雑なチャートなど視覚的に密集したコンテンツにおいて極めて重要である。推論能力を強化するため、モデルは線形な「思考の連鎖(chain-of-thought)」を越えて、自己チェックや修正を含む「反省(reflection)」を行うように学習されている。この高度な機能は推論時にオプションとして利用可能な「思考モード」として提供され、ユーザーは遅延を許容することで、難易度の高い入力に対してより高い精度を得られる。モデルは、段階的にスキルを構築する包括的な五段階カリキュラムに基づいて訓練されている。訓練プロセスは、基礎的な視覚およびマルチモーダル事前学習から始まり、大規模な指示チューニングを経て、最終的にDPO(Direct Preference Optimization)およびGRPO(Generalized Reward Policy Optimization)を用いたアライメントと推論能力の強化で完結する。これらの改善を効率的にスケーリングするため、マルチモーダルデータパッキングとハイブリッド並列処理を採用し、全体的なエンドツーエンドの高速化を実現した。本研究では、Ovis2.5-9BおよびOvis2.5-2Bの2種類のオープンソースモデルを公開する。後者はOvis2の「小型モデル、大規模な性能」の哲学を継承しており、リソース制約下や端末上での実行に最適な用途に適している。OpenCompassマルチモーダルリーダーボードにおいて、Ovis2.5-9Bは平均78.3を達成し、前世代モデルであるOvis2-8Bと比較して顕著な向上を示しており、パラメータ数40B未満のオープンソースMLLM(マルチモーダル大規模言語モデル)において最先端(SOTA)の成績を記録した。一方、Ovis2.5-2Bは73.9のスコアを獲得し、同サイズクラスにおいてもSOTAを達成した。総合スコアに加え、Ovis2.5はSTEM分野のベンチマークでトップクラスの結果を示し、グランドイング(オブジェクト位置特定)および動画処理タスクにおいても優れた性能を発揮しており、その規模において複雑なチャート解析においてもオープンソースモデルとしてのSOTAを達成している。