11日前

目を奪うように:マルチモーダル大規模言語モデルにおける解像度混合適応

Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji
目を奪うように:マルチモーダル大規模言語モデルにおける解像度混合適応
要約

顕著な進展にもかかわらず、現在のマルチモーダル大規模言語モデル(MLLM)は、細粒度な視覚認識において依然として劣っている。従来の研究とは異なり、本研究では画像の解像度という視点からこの問題にアプローチし、低解像度と高解像度の視覚特徴を組み合わせることで、この課題を効果的に軽減できることを明らかにした。この観察に基づき、我々はMLLM向けに新規かつ効率的な手法「解像度混合適応(Mixture-of-Resolution Adaptation, MRA)」を提案する。具体的には、異なる解像度の画像に対して2つの視覚パスを採用し、新規に設計された「解像度混合アダプタ(MR-Adapters)」を用いて高解像度の視覚情報を低解像度パスに埋め込む。この設計により、MLLMの入力シーケンス長も大幅に短縮される。MRAの有効性を検証するため、最近のMLLMであるLLaVAにこれを適用し、新モデルをLLaVA-HRと命名した。11の視覚言語(VL)タスクにおいて広範な実験を行った結果、LLaVA-HRは8つのVLタスクで既存のMLLMを上回り、特にTextVQAでは+9.4%の性能向上を達成した。さらに、LLaVA-HRはMRAを用いても学習および推論の効率性を維持しており、学習時間は20時間、推論速度はLLaVA-1.5の3倍にまで向上している。ソースコードは以下のURLで公開されている:https://github.com/luogen1996/LLaVA-HR。

目を奪うように:マルチモーダル大規模言語モデルにおける解像度混合適応 | 最新論文 | HyperAI超神経