2 个月前
猴类:图像分辨率和文本标签是大型多模态模型的重要因素
Li, Zhang ; Yang, Biao ; Liu, Qiang ; Ma, Zhiyin ; Zhang, Shuo ; Yang, Jingxu ; Sun, Yabo ; Liu, Yuliang ; Bai, Xiang

摘要
大型多模态模型(LMMs)在视觉-语言任务中展现出巨大潜力,但在处理高分辨率输入和详细场景理解方面仍面临挑战。为了解决这些问题,我们引入了Monkey以增强LMM的能力。首先,Monkey通过将输入图像分割成均匀的图像块(例如448x448像素),每个图像块与经过良好训练的视觉编码器在原始训练中使用的尺寸相匹配。借助每个图像块的独立适配器,Monkey能够处理高达1344x896像素的高分辨率图像,从而实现对复杂视觉信息的详细捕捉。其次,它采用了多层次描述生成方法,丰富了场景对象关联的上下文。这一两部分策略确保了从生成数据中更有效的学习:更高的分辨率使得视觉细节捕捉更加精细,进而增强了全面描述的有效性。大量的消融实验结果验证了我们设计的有效性。此外,18个数据集上的实验进一步证明,Monkey在许多任务如图像标题生成和各种形式的视觉问答中超越了现有的LMMs。特别是在针对密集文本问答的定性测试中,Monkey相比GPT4V展现出了令人鼓舞的结果。代码可在以下地址获取:https://github.com/Yuliang-Liu/Monkey。