Command Palette
Search for a command to run...
Ovis2.5 技術報告
Ovis2.5 技術報告
概要
Ovis2.5を発表します。これは、ネイティブ解像度での視覚認識と強力なマルチモーダル推論を目的として設計されたOvis2の後継モデルです。Ovis2.5は、画像をそのネイティブで変動する解像度で処理できるネイティブ解像度対応のビジョントランスフォーマーを統合しており、固定解像度のタイリングによる品質劣化を回避しつつ、微細なディテールと全体的なレイアウトを両方保持します。これは、複雑なグラフのような視覚的に密集したコンテンツにおいて極めて重要です。推論能力を強化するため、モデルは線形な「思考の連鎖(chain-of-thought)」を越えて、自己チェックや修正を含む「反省(reflection)」を行うように学習されています。この高度な機能は推論時にオプションとして利用可能な「思考モード」として提供され、ユーザーは遅延を許容することで、難易度の高い入力に対して精度を向上させることができます。モデルの学習は、段階的にスキルを構築する包括的な五段階カリキュラムを用いて実施されます。まず基礎的な視覚およびマルチモーダル事前学習から始まり、大規模なインストラクションチューニングを経て、最終的にDPO(Direct Preference Optimization)およびGRPO(Generalized Reward Policy Optimization)を用いたアライメントと推論能力の強化に至ります。これらの改善を効率的にスケーリングするため、マルチモーダルデータパッキングとハイブリッド並列処理を採用し、全体的なエンドツーエンドの高速化を達成しました。本研究では、Ovis2.5-9BおよびOvis2.5-2Bの2種類のオープンソースモデルをリリースします。後者(Ovis2.5-2B)は、Ovis2が継承した「小規模モデルでも高い性能」の哲学を踏襲しており、リソース制約下やデバイス上での実行に最適です。OpenCompassマルチモーダルリーダーボードにおいて、Ovis2.5-9Bは平均78.3を達成し、前バージョンのOvis2-8Bと比較して顕著な向上を示し、パラメータ数40B未満のオープンソースMLLM(マルチモーダル大規模言語モデル)の中で最先端(SOTA)の結果を記録しています。Ovis2.5-2Bは73.9を記録し、同サイズクラスにおけるオープンソースモデルのSOTAを確立しています。総合スコアだけでなく、Ovis2.5はSTEMベンチマークにおいてもトップクラスの結果を示し、グランドイング(接地)および動画処理タスクにおいても強力な性能を発揮しており、複雑なグラフ分析においても、その規模帯でオープンソースモデルとしての最先端水準を達成しています。