概要

最近の進展により、マルチモーダル大規模言語モデル（MLLM）のスケーリング拡大が、下流のマルチモーダルタスクにおける性能向上に効果的であることが示されている。現在の主流であるMLLMアーキテクチャ（例：LLaVA）は、視覚特徴を静的（static）な視覚言語マッパーを用いてテキスト風のトークンに変換し、これにより静的（static）な大規模言語モデル（LLM）が視覚指示チューニングを通じて視覚情報の理解能力を獲得できるようにしている。このアプローチは有望ではあるが、同一のパラメータを共有する「静的チューニング」戦略は、異なる下流マルチモーダルタスクにおいて性能の限界を生じさせる可能性がある。このような課題に鑑み、本研究では、プロジェクタおよびLLMのパラメータを適応的にチューニングする手法を導入した「HyperLLaVA」を提案する。本手法では、視覚エキスパートと言語エキスパートをそれぞれ動的（dynamic）に構成し、これらはHyperNetworksから得られる。HyperNetworksは視覚的・言語的ガイダンスに基づき、適応的なパラメータシフトを生成することで、二段階訓練においてプロジェクタおよびLLMの動的モデリングを可能にする。実験の結果、本手法はMME、MMBench、SEED-Bench、LLaVA-Benchといった既存のMLLMベンチマークにおいて、LLaVAを顕著に上回ることが確認された。\footnote{本研究のプロジェクトは、https://github.com/DCDmllm/HyperLLaVA にて公開されています。}

ソースPDF