HyperAIHyperAI

Command Palette

Search for a command to run...

Mono-InternVL-1.5: 安価で高速なモノリシックマルチモーダル大規模言語モデルへの道

概要

本論文は、視覚エンコーディングと言語デコーディングを単一のモデルに統合したモノリシックマルチモーダル大規模言語モデル(Monolithic Multimodal Large Language Models: MLLMs)に焦点を当てています。既存のモノリシックMLLMの構造や事前学習戦略は、最適化の不安定さや災害的な忘却(catastrophic forgetting)などの問題をしばしば抱えています。これらの課題に対処するため、我々の主要なアイデアは、事前学習済みの大規模言語モデル(LLM)に新しい視覚パラメータ空間を埋め込むことであり、デルタチューニングを通じてノイジーなデータから視覚知識を安定して学習させることを目指しています。この原理に基づいて、まずMono-InternVLという先進的なモノリシックMLLMを紹介します。Mono-InternVLは、マルチモーダル専門家混合アーキテクチャ(mixture-of-experts architecture)を用いて一連の視覚専門家を取り入れています。さらに、Mono-InternVLの視覚能力を最大限に引き出すために革新的な内因性視覚事前学習(Endogenous Visual Pre-training: EViP)手法を設計しました。進行型学習を通じてEViPがその能力を最大化します。Mono-InternVLは既存のMLLMに対して競争力のある性能を達成していますが、相対的に高額なデータコストも伴います。そのため、我々はさらに安価で強力なモノリシックMLLMであるMono-InternVL-1.5を提案します。Mono-InternVL-1.5には改良されたEViP(EViP++)が搭載されており、追加の視覚注意専門家が導入され、事前学習プロセスが効率的に再編成されています。推論時にはMoE操作を高速化するために融合CUDAカーネルが含まれています。これらの設計により、Mono-InternVL-1.5は訓練および推論コストを大幅に削減しつつ、依然としてMono-InternVLと同等の競争力のある性能を維持しています。我々のアプローチ評価のために、15つのベンチマークにおける広範な実験を行いました。結果は、Mono-InternVLが15つのベンチマーク中の12つで既存のモノリシックMLLMよりも優れた性能を示していることを証明しています。例えばOCRBenchではEmu3に対して+114ポイントの改善が見られました。モジュール型対応モデルであるInternVL-1.5と比較すると、Mono-InternVL-1.5は類似したマルチモーダル性能を達成しつつ、初トークン遅延時間を最大69%削減しています。コードとモデルはhttps://github.com/OpenGVLab/Mono-InternVL で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています