MiniCPM-V: 携帯電話用のGPT-4VレベルのMLLM

最近のマルチモーダル大規模言語モデル(Multimodal Large Language Models: MLLMs)の急激な増加は、AI研究と産業の領域を根本的に再構築し、次のAIマイルストーンへの有望な道筋を示しています。しかし、実世界での応用に向けたMLLMsの実用化には依然として大きな課題が存在しています。最も顕著な課題は、大量のパラメータと広範な計算を必要とするMLLMsの運用コストの高さです。その結果、ほとんどのMLLMsは高性能クラウドサーバー上での展開が必要となり、モバイル、オフライン、エネルギー制約のある環境やプライバシー保護が必要なシナリオなどでの適用範囲が大幅に制限されています。本研究では、エンドデバイス上で展開可能な効率的なMLLMsシリーズであるMiniCPM-Vを紹介します。最新のアーキテクチャ、事前学習、およびアライメント技術を統合することで、最新版のMiniCPM-Llama3-V 2.5には以下の特徴があります:(1) OpenCompassという11の人気ベンチマークで包括的な評価を行い、GPT-4V-1106、Gemini Pro、Claude 3を上回る高い性能、(2) 強力なOCR機能と任意のアスペクト比での1.8Mピクセル高解像度画像認識能力、(3) 幻覚発生率が低い信頼性の高い動作特性、(4) 30以上の言語に対応する多言語サポート機能、(5) モバイル電話への効率的な展開可能性。さらに重要な点は、MiniCPM-Vが有望な傾向の一例として捉えられることです。この傾向とは、利用可能レベル(例:GPT-4V)の性能を達成するためのモデルサイズが急速に減少していることと、エンドデバイス上の計算能力が急速に向上していることです。これらは共同して示しており、GPT-4VレベルのMLLMsがエンドデバイス上で展開されることがますます現実的になりつつあり、近い将来においてより広範な実世界AIアプリケーションへの扉を開く可能性があることを示しています。