Command Palette
Search for a command to run...
通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐
通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐
摘要
大型视觉-语言模型(LVLMs)通过在特定数据集上进行视觉指令调优,在视觉问答和推理任务中取得了令人印象深刻的结果。然而,在对齐视觉和语言模态方面仍存在显著的改进空间。现有的方法通常依赖外部模型或数据,导致对齐结果难以控制且不稳定。本文提出了一种自提升框架——SIMA,该框架无需外部依赖即可增强视觉和语言模态的对齐效果。SIMA利用现有的视觉指令调优数据集自动生成响应,并结合了上下文中的自批评机制来构建偏好对用于调优。重要的是,我们的方法通过设计有效的批评提示,使LVLMs能够充当批评者,从而消除了对外部指令数据进行额外微调的需求。我们在自批评过程中引入了三个新颖的视觉指标,以指导判断过程,显著提高了自批评的准确性。通过在14个幻觉和全面基准测试上的广泛实验,我们证明SIMA显著提升了LVLM的性能,并优于先前的方法,实现了更优越的模态对齐效果。