2 个月前

CoLLaVO: 蜡笔大语言和视觉模型

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro
CoLLaVO: 蜡笔大语言和视觉模型
摘要

大型语言模型(LLMs)和指令调优的显著成功推动了视觉语言模型(VLMs)向多功能通用模型的演变。然而,目前尚不清楚现有的VLMs是否真正具备从“图像中有哪些物体?”或“指定边界框对应哪个物体?”等角度确定的高质量物体级图像理解能力。我们的研究发现表明,当前VLMs的图像理解能力与其在视觉语言(VL)任务上的零样本性能之间存在强烈的关联。这表明,优先提升基本的图像理解能力对于VLMs在VL任务中表现出色至关重要。为了增强物体级图像理解能力,我们提出了Crayon Large Language and Vision mOdel(CoLLaVO),该模型结合了指令调优和基于全景色彩图的新视觉提示调优方案——Crayon Prompt。此外,我们还提出了一种双QLoRA学习策略,以在进行视觉指令调优时保留物体级图像理解能力而不遗忘,从而在零样本设置下实现了多个VL基准测试中的显著突破。

CoLLaVO: 蜡笔大语言和视觉模型 | 最新论文 | HyperAI超神经