LLaMA-Adapter V2: パラメータ効率の高い視覚指示モデル

大規模言語モデル(LLMs)を効率的に指示追従型に変換する方法は最近注目を集めている研究方向性ですが、マルチモーダル推論のためのLLMの訓練についてはまだ十分に探索されていません。最近のLLaMA-Adapterは、視覚入力を処理する可能性を示していますが、未だオープンエンドの視覚指示への汎化性能が低く、GPT-4には及ばない点があります。本論文では、パラメータ効率の高い視覚指示モデルであるLLaMA-Adapter V2を提案します。具体的には、まずLLaMA-Adapterを拡張し、より多くの学習可能なパラメータ(例えば、規格化、バイアス、スケール)を解放することで、アダプタ以外にも全体的なLLaMAモデルに指示追従能力を分散させます。次に、視覚トークンを初期のLLM層のみに入力する早期融合戦略を提案します。これにより、より良い視覚知識の統合が可能になります。さらに、画像-テキストペアと指示追従データを使用した共同訓練パラダイムを導入し、学習可能なパラメータ群を最適化します。この戦略は、画像-テキスト対応と指示追従という2つのタスク間の干渉を効果的に軽減し、小規模な画像-テキストおよび指示データセットで強力なマルチモーダル推論を達成します。推論時には、キャプショニングやOCRシステムなどの専門モデルをLLaMA-Adapterに組み込むことで、訓練コストなしでその画像理解能力をさらに向上させます。元のLLaMA-Adapterと比較して、当社のLLaMA-Adapter V2は14Mパラメータのみ追加することでオープンエンドのマルチモーダル指示に対応できます。新しく設計されたフレームワークはまた、言語のみの指示追従能力も強化され、チャットインタラクションにおいても優れた性能を発揮します。当社のコードとモデルは以下のURLから入手可能です: https://github.com/ZrrSkywalker/LLaMA-Adapter.