Command Palette
Search for a command to run...
TinyLLaVA:小規模大規模マルチモーダルモデルのためのフレームワーク
TinyLLaVA:小規模大規模マルチモーダルモデルのためのフレームワーク
Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang
概要
本稿では、小規模な大規模マルチモーダルモデル(LMM)の設計および分析において統一的な視点を提供する「TinyLLaVAフレームワーク」を提案する。我々は、異なる視覚エンコーダー、接続モジュール、言語モデル、学習データ、および学習手法の影響を実証的に調査した。広範な実験の結果、高品質なデータと優れた学習手法を組み合わせることで、より小型のLMMであっても、大型LMMと同等の性能を一貫して達成できることが明らかになった。本フレームワークに基づき、小規模LMMのシリーズを学習した。最も優れたモデルであるTinyLLaVA-3.1Bは、LLaVA-1.5やQwen-VLといった既存の7B規模モデルと比較しても、全体的な性能で優位性を示した。本研究の知見が、今後のデータスケーリング、学習設定、モデル選定に関する研究の基盤となることを期待している。モデルの重みおよびコードは公開予定である。