Command Palette
Search for a command to run...
マルチモーダル大規模言語モデルにおける視覚的表現のアライメント
マルチモーダル大規模言語モデルにおける視覚的表現のアライメント
概要
視覚指示チューニング(visual instruction tuning)を用いて訓練された多モーダル大規模言語モデル(MLLM)は、多様なタスクにおいて優れた性能を発揮しているが、オブジェクトの個数カウントや空間的推論といった視覚中心のタスクでは依然として限界がある。本研究では、このギャップの原因を、視覚パスに対する直接的な指導が得られない主流のテキストのみによる監視(text-only supervision)の枠組みにあると指摘する。この監視方式は、モデルが学習過程で入力画像の細部情報を無視する傾向を助長する。本論文では、事前学習済みの視覚基盤モデル(VFM)の内部視覚表現とMLLMの内部視覚表現を一致させる、シンプルながら効果的な正則化戦略である「VIsual Representation ALignment(VIRAL)」を提案する。この一致を明示的に強制することで、VIRALはモデルが視覚エンコーダからの入力から重要な視覚的細部を保持するだけでなく、VFMから追加の視覚知識を補完する能力を高め、複雑な視覚入力に対する推論能力を強化する。実験結果から、広く用いられている多モーダルベンチマークにおいて、すべてのタスクで一貫した性能向上が確認された。さらに、フレームワークの主要な設計選択の有効性を検証するため、包括的なアブレーションスタディを実施した。本研究のシンプルな発見が、MLLMの訓練における視覚情報の有効統合という重要な方向性を切り開くものであると考える。