8 个月前

计算机视觉

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

摘要

大型语言模型（LLMs）和指令调优的显著成功推动了视觉语言模型（VLMs）向多功能通用模型的演变。然而，目前尚不清楚现有的VLMs是否真正具备从“图像中有哪些物体？”或“指定边界框对应哪个物体？”等角度确定的高质量物体级图像理解能力。我们的研究发现表明，当前VLMs的图像理解能力与其在视觉语言（VL）任务上的零样本性能之间存在强烈的关联。这表明，优先提升基本的图像理解能力对于VLMs在VL任务中表现出色至关重要。为了增强物体级图像理解能力，我们提出了Crayon Large Language and Vision mOdel（CoLLaVO），该模型结合了指令调优和基于全景色彩图的新视觉提示调优方案——Crayon Prompt。此外，我们还提出了一种双QLoRA学习策略，以在进行视觉指令调优时保留物体级图像理解能力而不遗忘，从而在零样本设置下实现了多个VL基准测试中的显著突破。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

摘要

大型语言模型（LLMs）和指令调优的显著成功推动了视觉语言模型（VLMs）向多功能通用模型的演变。然而，目前尚不清楚现有的VLMs是否真正具备从“图像中有哪些物体？”或“指定边界框对应哪个物体？”等角度确定的高质量物体级图像理解能力。我们的研究发现表明，当前VLMs的图像理解能力与其在视觉语言（VL）任务上的零样本性能之间存在强烈的关联。这表明，优先提升基本的图像理解能力对于VLMs在VL任务中表现出色至关重要。为了增强物体级图像理解能力，我们提出了Crayon Large Language and Vision mOdel（CoLLaVO），该模型结合了指令调优和基于全景色彩图的新视觉提示调优方案——Crayon Prompt。此外，我们还提出了一种双QLoRA学习策略，以在进行视觉指令调优时保留物体级图像理解能力而不遗忘，从而在零样本设置下实现了多个VL基准测试中的显著突破。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供