6ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

概要

本稿では、テキスト豊富な画像理解、視覚的参照・グランドイング、複数画像の推論能力を強化することを目的として設計された、新しい多モーダル大規模言語モデル（MLLM）のファミリであるMM1.5を紹介する。MM1.5は、MM1アーキテクチャを基盤とし、モデル学習の全ライフサイクルにわたり、多様なデータ混合の影響を体系的に検証するデータ中心のアプローチを採用している。これには、継続的プレトレーニングに向けた高品質なOCRデータや合成キャプション、および教師あり微調整用に最適化された視覚的インストラクションチューニングデータの混合が含まれる。本モデルは10億（1B）～300億（30B）パラメータの範囲にわたり、密結合型（dense）と混合専門家（Mixture-of-Experts, MoE）の両方のバリアントを含んでおり、小規模なモデル（1Bおよび3B）でも、データの丁寧な選定と学習戦略の適切な設計によって優れた性能が得られることを示している。さらに、専用の2つのバリアントを導入した。MM1.5-Videoは動画理解に特化し、MM1.5-UIはモバイルUI理解に最適化されている。広範な実証的検証とアブレーション研究を通じて、最終的な設計に至るまでの学習プロセスと意思決定の詳細な知見を提供し、今後のMLLM開発に関する研究に貴重な指針を示す。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

概要

本稿では、テキスト豊富な画像理解、視覚的参照・グランドイング、複数画像の推論能力を強化することを目的として設計された、新しい多モーダル大規模言語モデル（MLLM）のファミリであるMM1.5を紹介する。MM1.5は、MM1アーキテクチャを基盤とし、モデル学習の全ライフサイクルにわたり、多様なデータ混合の影響を体系的に検証するデータ中心のアプローチを採用している。これには、継続的プレトレーニングに向けた高品質なOCRデータや合成キャプション、および教師あり微調整用に最適化された視覚的インストラクションチューニングデータの混合が含まれる。本モデルは10億（1B）～300億（30B）パラメータの範囲にわたり、密結合型（dense）と混合専門家（Mixture-of-Experts, MoE）の両方のバリアントを含んでおり、小規模なモデル（1Bおよび3B）でも、データの丁寧な選定と学習戦略の適切な設計によって優れた性能が得られることを示している。さらに、専用の2つのバリアントを導入した。MM1.5-Videoは動画理解に特化し、MM1.5-UIはモバイルUI理解に最適化されている。広範な実証的検証とアブレーション研究を通じて、最終的な設計に至るまでの学習プロセスと意思決定の詳細な知見を提供し、今後のMLLM開発に関する研究に貴重な指針を示す。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています