HyperAIHyperAI

Command Palette

Search for a command to run...

HyperLLaVA:マルチモーダル大規模言語モデルにおける動的視覚および言語エキスパートチューニング

概要

最近の進展により、マルチモーダル大規模言語モデル(MLLM)のスケーリング拡大が、下流のマルチモーダルタスクにおける性能向上に効果的であることが示されている。現在の主流であるMLLMアーキテクチャ(例:LLaVA)は、視覚特徴を静的(static)な視覚言語マッパーを用いてテキスト風のトークンに変換し、これにより静的(static)な大規模言語モデル(LLM)が視覚指示チューニングを通じて視覚情報の理解能力を獲得できるようにしている。このアプローチは有望ではあるが、同一のパラメータを共有する「静的チューニング」戦略は、異なる下流マルチモーダルタスクにおいて性能の限界を生じさせる可能性がある。このような課題に鑑み、本研究では、プロジェクタおよびLLMのパラメータを適応的にチューニングする手法を導入した「HyperLLaVA」を提案する。本手法では、視覚エキスパートと言語エキスパートをそれぞれ動的(dynamic)に構成し、これらはHyperNetworksから得られる。HyperNetworksは視覚的・言語的ガイダンスに基づき、適応的なパラメータシフトを生成することで、二段階訓練においてプロジェクタおよびLLMの動的モデリングを可能にする。実験の結果、本手法はMME、MMBench、SEED-Bench、LLaVA-Benchといった既存のMLLMベンチマークにおいて、LLaVAを顕著に上回ることが確認された。\footnote{本研究のプロジェクトは、https://github.com/DCDmllm/HyperLLaVA にて公開されています。}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています