HyperAIHyperAI

Command Palette

Search for a command to run...

CoLLaVO: 蜡笔大语言和视觉模型

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

摘要

大型语言模型(LLMs)和指令调优的显著成功推动了视觉语言模型(VLMs)向多功能通用模型的演变。然而,目前尚不清楚现有的VLMs是否真正具备从“图像中有哪些物体?”或“指定边界框对应哪个物体?”等角度确定的高质量物体级图像理解能力。我们的研究发现表明,当前VLMs的图像理解能力与其在视觉语言(VL)任务上的零样本性能之间存在强烈的关联。这表明,优先提升基本的图像理解能力对于VLMs在VL任务中表现出色至关重要。为了增强物体级图像理解能力,我们提出了Crayon Large Language and Vision mOdel(CoLLaVO),该模型结合了指令调优和基于全景色彩图的新视觉提示调优方案——Crayon Prompt。此外,我们还提出了一种双QLoRA学习策略,以在进行视觉指令调优时保留物体级图像理解能力而不遗忘,从而在零样本设置下实现了多个VL基准测试中的显著突破。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供