Command Palette
Search for a command to run...
HyperLLaVA:マルチモーダル大規模言語モデルにおける動的視覚および言語エキスパートチューニング
HyperLLaVA:マルチモーダル大規模言語モデルにおける動的視覚および言語エキスパートチューニング
概要
最近の進展により、マルチモーダル大規模言語モデル(MLLM)のスケーリング拡大が、下流のマルチモーダルタスクにおける性能向上に効果的であることが示されている。現在の主流であるMLLMアーキテクチャ(例:LLaVA)は、視覚特徴を静的(static)な視覚言語マッパーを用いてテキスト風のトークンに変換し、これにより静的(static)な大規模言語モデル(LLM)が視覚指示チューニングを通じて視覚情報の理解能力を獲得できるようにしている。このアプローチは有望ではあるが、同一のパラメータを共有する「静的チューニング」戦略は、異なる下流マルチモーダルタスクにおいて性能の限界を生じさせる可能性がある。このような課題に鑑み、本研究では、プロジェクタおよびLLMのパラメータを適応的にチューニングする手法を導入した「HyperLLaVA」を提案する。本手法では、視覚エキスパートと言語エキスパートをそれぞれ動的(dynamic)に構成し、これらはHyperNetworksから得られる。HyperNetworksは視覚的・言語的ガイダンスに基づき、適応的なパラメータシフトを生成することで、二段階訓練においてプロジェクタおよびLLMの動的モデリングを可能にする。実験の結果、本手法はMME、MMBench、SEED-Bench、LLaVA-Benchといった既存のMLLMベンチマークにおいて、LLaVAを顕著に上回ることが確認された。\footnote{本研究のプロジェクトは、https://github.com/DCDmllm/HyperLLaVA にて公開されています。}