8 个月前

计算机视觉

Li Zhang ; Yang Biao ; Liu Qiang ; Ma Zhiyin ; Zhang Shuo ; Yang Jingxu ; Sun Yabo ; Liu Yuliang ; Bai Xiang

摘要

大型多模态模型（LMMs）在视觉-语言任务中展现出巨大潜力，但在处理高分辨率输入和详细场景理解方面仍面临挑战。为了解决这些问题，我们引入了Monkey以增强LMM的能力。首先，Monkey通过将输入图像分割成均匀的图像块（例如448x448像素），每个图像块与经过良好训练的视觉编码器在原始训练中使用的尺寸相匹配。借助每个图像块的独立适配器，Monkey能够处理高达1344x896像素的高分辨率图像，从而实现对复杂视觉信息的详细捕捉。其次，它采用了多层次描述生成方法，丰富了场景对象关联的上下文。这一两部分策略确保了从生成数据中更有效的学习：更高的分辨率使得视觉细节捕捉更加精细，进而增强了全面描述的有效性。大量的消融实验结果验证了我们设计的有效性。此外，18个数据集上的实验进一步证明，Monkey在许多任务如图像标题生成和各种形式的视觉问答中超越了现有的LMMs。特别是在针对密集文本问答的定性测试中，Monkey相比GPT4V展现出了令人鼓舞的结果。代码可在以下地址获取：https://github.com/Yuliang-Liu/Monkey。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Li Zhang ; Yang Biao ; Liu Qiang ; Ma Zhiyin ; Zhang Shuo ; Yang Jingxu ; Sun Yabo ; Liu Yuliang ; Bai Xiang

摘要

大型多模态模型（LMMs）在视觉-语言任务中展现出巨大潜力，但在处理高分辨率输入和详细场景理解方面仍面临挑战。为了解决这些问题，我们引入了Monkey以增强LMM的能力。首先，Monkey通过将输入图像分割成均匀的图像块（例如448x448像素），每个图像块与经过良好训练的视觉编码器在原始训练中使用的尺寸相匹配。借助每个图像块的独立适配器，Monkey能够处理高达1344x896像素的高分辨率图像，从而实现对复杂视觉信息的详细捕捉。其次，它采用了多层次描述生成方法，丰富了场景对象关联的上下文。这一两部分策略确保了从生成数据中更有效的学习：更高的分辨率使得视觉细节捕捉更加精细，进而增强了全面描述的有效性。大量的消融实验结果验证了我们设计的有效性。此外，18个数据集上的实验进一步证明，Monkey在许多任务如图像标题生成和各种形式的视觉问答中超越了现有的LMMs。特别是在针对密集文本问答的定性测试中，Monkey相比GPT4V展现出了令人鼓舞的结果。代码可在以下地址获取：https://github.com/Yuliang-Liu/Monkey。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供