HyperAIHyperAI

Command Palette

Search for a command to run...

通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐

摘要

大型视觉-语言模型(LVLMs)通过在特定数据集上进行视觉指令调优,在视觉问答和推理任务中取得了令人印象深刻的结果。然而,在对齐视觉和语言模态方面仍存在显著的改进空间。现有的方法通常依赖外部模型或数据,导致对齐结果难以控制且不稳定。本文提出了一种自提升框架——SIMA,该框架无需外部依赖即可增强视觉和语言模态的对齐效果。SIMA利用现有的视觉指令调优数据集自动生成响应,并结合了上下文中的自批评机制来构建偏好对用于调优。重要的是,我们的方法通过设计有效的批评提示,使LVLMs能够充当批评者,从而消除了对外部指令数据进行额外微调的需求。我们在自批评过程中引入了三个新颖的视觉指标,以指导判断过程,显著提高了自批评的准确性。通过在14个幻觉和全面基准测试上的广泛实验,我们证明SIMA显著提升了LVLM的性能,并优于先前的方法,实现了更优越的模态对齐效果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供