HyperAIHyperAI

Command Palette

Search for a command to run...

マルチモーダル大規模言語モデルにおける視覚的表現のアライメント

概要

視覚指示チューニング(visual instruction tuning)を用いて訓練された多モーダル大規模言語モデル(MLLM)は、多様なタスクにおいて優れた性能を発揮しているが、オブジェクトの個数カウントや空間的推論といった視覚中心のタスクでは依然として限界がある。本研究では、このギャップの原因を、視覚パスに対する直接的な指導が得られない主流のテキストのみによる監視(text-only supervision)の枠組みにあると指摘する。この監視方式は、モデルが学習過程で入力画像の細部情報を無視する傾向を助長する。本論文では、事前学習済みの視覚基盤モデル(VFM)の内部視覚表現とMLLMの内部視覚表現を一致させる、シンプルながら効果的な正則化戦略である「VIsual Representation ALignment(VIRAL)」を提案する。この一致を明示的に強制することで、VIRALはモデルが視覚エンコーダからの入力から重要な視覚的細部を保持するだけでなく、VFMから追加の視覚知識を補完する能力を高め、複雑な視覚入力に対する推論能力を強化する。実験結果から、広く用いられている多モーダルベンチマークにおいて、すべてのタスクで一貫した性能向上が確認された。さらに、フレームワークの主要な設計選択の有効性を検証するため、包括的なアブレーションスタディを実施した。本研究のシンプルな発見が、MLLMの訓練における視覚情報の有効統合という重要な方向性を切り開くものであると考える。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
マルチモーダル大規模言語モデルにおける視覚的表現のアライメント | 記事 | HyperAI超神経