11 天前
饱览视觉盛宴:面向多模态大语言模型的多分辨率自适应方法
Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

摘要
尽管取得了显著进展,现有的多模态大语言模型(MLLMs)在细粒度视觉识别方面仍存在不足。与以往研究不同,本文从图像分辨率的角度出发,揭示了低分辨率与高分辨率视觉特征的结合能够有效缓解这一缺陷。基于这一发现,我们提出了一种新颖且高效的多模态大语言模型方法,称为分辨率混合适配(Mixture-of-Resolution Adaptation, MRA)。具体而言,MRA为不同分辨率的图像设计了两条视觉路径,其中通过一种新型的分辨率混合适配器(MR-Adapters),将高分辨率视觉信息嵌入低分辨率路径中。该设计不仅提升了模型对细粒度视觉内容的感知能力,还显著降低了多模态大语言模型的输入序列长度。为验证MRA的有效性,我们将该方法应用于近期提出的MLLM——LLaVA,并构建了新模型LLaVA-HR。我们在11项视觉-语言(VL)任务上进行了广泛实验,结果表明,LLaVA-HR在其中8项任务上优于现有MLLMs,例如在TextVQA任务上性能提升达+9.4%。更重要的是,LLaVA-HR在训练与推理阶段均保持高效:训练仅需约20小时,推理速度比LLaVA-1.5快3倍。相关源代码已开源,地址为:https://github.com/luogen1996/LLaVA-HR。