2ヶ月前

データ中心の視点からの効率的な多モーダル学習

Muyang He; Yexin Liu; Boya Wu; Jianhao Yuan; Yueze Wang; Tiejun Huang; Bo Zhao

要約

マルチモーダル大規模言語モデル（MLLMs）は、一般的な視覚理解や推論タスクにおいて著しい能力を示しています。しかし、これらのモデルの展開は、学習と推論における大きな計算コストによって阻害されており、広範な研究者やユーザーが利用する機会が制限されています。単純な解決策としては、より小さな事前学習済みの視覚および言語モデルを使用することですが、これは性能に大幅な低下をもたらすことが避けられません。本論文では、高品質な訓練データを使用して、より小さくかつ高性能なMLLMを学習させる可能性を示します。具体的には、選択された訓練データから効率的にマルチモーダル学習を行うための柔軟な視覚および言語バックボーンを持つ軽量MLLMファミリー「バニー」を導入します。実験結果によると、当社のバニー-4B/8Bは複数のベンチマークで最先端の大規模MLLMを上回る性能を発揮しました。私たちはこの研究がコミュニティにクリーンで柔軟性のあるオープンソースツールを提供し、さらなる研究や開発に貢献することを期待しています。コード、モデル、データは以下のURLから入手できます: https://github.com/BAAI-DCAI/Bunny.