HyperAIHyperAI

Command Palette

Search for a command to run...

データ中心の視点からの効率的な多モーダル学習

Muyang He extsuperscript1,2*, Yexin Liu extsuperscript1,3*, Boya Wu extsuperscript1*, Jianhao Yuan extsuperscript4, Yueze Wang extsuperscript1, Tiejun Huang extsuperscript1,2, Bo Zhao extsuperscript1,5†

概要

マルチモーダル大規模言語モデル(MLLMs)は、一般的な視覚理解や推論タスクにおいて著しい能力を示しています。しかし、これらのモデルの展開は、学習と推論における大きな計算コストによって阻害されており、広範な研究者やユーザーが利用する機会が制限されています。単純な解決策としては、より小さな事前学習済みの視覚および言語モデルを使用することですが、これは性能に大幅な低下をもたらすことが避けられません。本論文では、高品質な訓練データを使用して、より小さくかつ高性能なMLLMを学習させる可能性を示します。具体的には、選択された訓練データから効率的にマルチモーダル学習を行うための柔軟な視覚および言語バックボーンを持つ軽量MLLMファミリー「バニー」を導入します。実験結果によると、当社のバニー-4B/8Bは複数のベンチマークで最先端の大規模MLLMを上回る性能を発揮しました。私たちはこの研究がコミュニティにクリーンで柔軟性のあるオープンソースツールを提供し、さらなる研究や開発に貢献することを期待しています。コード、モデル、データは以下のURLから入手できます: https://github.com/BAAI-DCAI/Bunny.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています