SAIL-VL2 技术報告

SAIL-VL2 を紹介します。これは、包括的なマルチモーダル理解と推論を実現するオープンソース型の視覚言語基盤モデル(LVM)です。SAIL-VL の後継モデルとして開発された SAIL-VL2 は、20億(2B)および80億(8B)パラメータ規模において、多様な画像および動画ベンチマークで最先端の性能を達成し、細粒度の認識から複雑な推論に至るまで、強力な能力を示しています。その効果性を支えるのは、以下の3つの核心的革新です。第一に、キャプション作成、OCR、質疑応答(QA)、動画データの各領域において、スコアリングとフィルタリング戦略を導入した大規模なデータキュレーションパイプラインにより、データの質と分布のバランスが向上し、学習効率が飛躍的に改善されました。第二に、プログレッシブな学習フレームワークを採用しています。このフレームワークは、強力な事前学習済み視覚エンコーダー(SAIL-ViT)から出発し、マルチモーダル事前学習を経て、最終的に「思考統合型」のSFT-RLハイブリッドパラダイムへと進化します。これにより、モデルの能力が体系的に強化されます。第三に、アーキテクチャ面での進展として、従来の密な大規模言語モデル(LLM)にとどまらず、効率的なスパース型Mixture-of-Experts(MoE)設計が導入されています。これらの貢献により、SAIL-VL2 は106のデータセットにおいて競争力ある性能を発揮し、MMMUやMathVistaといった困難な推論ベンチマークにおいても最先端の結果を達成しました。さらに、OpenCompassリーダーボードにおいて、40億パラメータ規模以下の公開モデルの中で、SAIL-VL2-2Bは公式にリリースされたオープンソースモデルとして第一位を獲得しました。また、オープンソースのマルチモーダルコミュニティにとって、効率的かつ拡張性に優れた基盤としての役割も果たしています。