Discordで議論

10ヶ月前

マルチモーダル

Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang

概要

本稿では、小規模な大規模マルチモーダルモデル（LMM）の設計および分析において統一的な視点を提供する「TinyLLaVAフレームワーク」を提案する。我々は、異なる視覚エンコーダー、接続モジュール、言語モデル、学習データ、および学習手法の影響を実証的に調査した。広範な実験の結果、高品質なデータと優れた学習手法を組み合わせることで、より小型のLMMであっても、大型LMMと同等の性能を一貫して達成できることが明らかになった。本フレームワークに基づき、小規模LMMのシリーズを学習した。最も優れたモデルであるTinyLLaVA-3.1Bは、LLaVA-1.5やQwen-VLといった既存の7B規模モデルと比較しても、全体的な性能で優位性を示した。本研究の知見が、今後のデータスケーリング、学習設定、モデル選定に関する研究の基盤となることを期待している。モデルの重みおよびコードは公開予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Discordで議論

10ヶ月前

マルチモーダル

Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang

概要

本稿では、小規模な大規模マルチモーダルモデル（LMM）の設計および分析において統一的な視点を提供する「TinyLLaVAフレームワーク」を提案する。我々は、異なる視覚エンコーダー、接続モジュール、言語モデル、学習データ、および学習手法の影響を実証的に調査した。広範な実験の結果、高品質なデータと優れた学習手法を組み合わせることで、より小型のLMMであっても、大型LMMと同等の性能を一貫して達成できることが明らかになった。本フレームワークに基づき、小規模LMMのシリーズを学習した。最も優れたモデルであるTinyLLaVA-3.1Bは、LLaVA-1.5やQwen-VLといった既存の7B規模モデルと比較しても、全体的な性能で優位性を示した。本研究の知見が、今後のデータスケーリング、学習設定、モデル選定に関する研究の基盤となることを期待している。モデルの重みおよびコードは公開予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています