24日前

SAIL-VL2 技术報告

Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
SAIL-VL2 技术報告
要約

SAIL-VL2 を紹介します。これは、包括的なマルチモーダル理解と推論を実現するオープンソース型の視覚言語基盤モデル(LVM)です。SAIL-VL の後継モデルとして開発された SAIL-VL2 は、20億(2B)および80億(8B)パラメータ規模において、多様な画像および動画ベンチマークで最先端の性能を達成し、細粒度の認識から複雑な推論に至るまで、強力な能力を示しています。その効果性を支えるのは、以下の3つの核心的革新です。第一に、キャプション作成、OCR、質疑応答(QA)、動画データの各領域において、スコアリングとフィルタリング戦略を導入した大規模なデータキュレーションパイプラインにより、データの質と分布のバランスが向上し、学習効率が飛躍的に改善されました。第二に、プログレッシブな学習フレームワークを採用しています。このフレームワークは、強力な事前学習済み視覚エンコーダー(SAIL-ViT)から出発し、マルチモーダル事前学習を経て、最終的に「思考統合型」のSFT-RLハイブリッドパラダイムへと進化します。これにより、モデルの能力が体系的に強化されます。第三に、アーキテクチャ面での進展として、従来の密な大規模言語モデル(LLM)にとどまらず、効率的なスパース型Mixture-of-Experts(MoE)設計が導入されています。これらの貢献により、SAIL-VL2 は106のデータセットにおいて競争力ある性能を発揮し、MMMUやMathVistaといった困難な推論ベンチマークにおいても最先端の結果を達成しました。さらに、OpenCompassリーダーボードにおいて、40億パラメータ規模以下の公開モデルの中で、SAIL-VL2-2Bは公式にリリースされたオープンソースモデルとして第一位を獲得しました。また、オープンソースのマルチモーダルコミュニティにとって、効率的かつ拡張性に優れた基盤としての役割も果たしています。