ビジョン言語モデル、ゼロから訓練
現代のビジョンランゲージモデル(VLM)は、最初からゼロからトレーニングするのではなく、既存のテキスト専用言語モデルをファインチューニングすることで構築されるのが一般的です。これは、視覚と言語の両方を同時に学習するコストと計算リソースの莫大さを回避するためです。主要なアーキテクチャは、画像バックボーン、アダプター層、言語層の 3 つで構成されます。まず、画像バックボーンとして、ImageNet で事前学習された Vision Transformer(ViT)が使用されます。近年の研究ではコスト削減と過学習防止のため、ViT の重みは学習時に凍結(固定)され、画像はパッチに分割されてベクトル埋め込みとして抽出されます。次に、これらの視覚埋め込みを言語モデルが理解できるテキスト形式に変換するアダプター層が必要です。特に BLIP-2 で採用された Q-Former は、テキスト専用 BERT モデルにクロスアテンション層を追加し、可学習なクエリ埋め込みを用いて画像特徴とテキストを照合させます。これにより、画像の詳細をコンパクトなトークン列に変換し、画像とテキストの対照損失やマッチング損失、生成損失などの手法でトレーニングされます。最後に、これらの変換された視覚埋め込みを、SmolLM2 などの小規模な指示微調整済み言語モデルに統合します。画像埋め込みは小型の MLP 層を経て言語モデルの埋め込み空間にマッピングされ、システムプロンプトやユーザーのクエリと結合されます。この際、言語モデルの全パラメータをトレーニングするのではなく、LoRA アダプタのみを訓練することで、既存の言語知識を保持しつつ視覚理解能力を追加します。このプロセスにより、視覚的な情報を処理し、テキストを生成する新しい VLM が完成します。最終的に、Q-Former と MLP、LoRA アダプタのみが学習され、その他のモジュールは凍結されたままになります。この効率的な手法により、消費用ハードウェアでも数時間で視覚理解モデルを構築することが可能となり、画像の分析と説明をリアルタイムで行えるようになります。
