17 天前

歌词:通过语义感知的视觉对象提升细粒度的图文对齐与理解

Junyu Lu, Dixiang Zhang, Songxin Zhang, Zejian Xie, Zhuoyang Song, Cong Lin, Jiaxing Zhang, Bingyi Jing, Pingjian Zhang
歌词:通过语义感知的视觉对象提升细粒度的图文对齐与理解
摘要

大型视觉语言模型(Large Vision Language Models, LVLMs)在多种视觉-语言对话场景中展现了出色的零样本能力。然而,由于缺乏细粒度的视觉目标检测能力,模型难以理解图像中的细节信息,从而导致无法修复的视觉幻觉和事实性错误。本文提出了一种名为Lyrics的新颖多模态预训练与指令微调范式,通过细粒度的跨模态协同机制实现视觉与语言模态的对齐。基于BLIP-2架构,Lyrics引入了一个视觉精炼器(visual refiner),该精炼器包含图像标注、目标检测与语义分割模块,从中提取局部视觉特征,并将其注入查询变换器(Querying Transformer)中;在文本侧,语言输入则融合了由视觉精炼器生成的边界框和标签信息。此外,我们设计了一种两阶段训练策略:在预训练阶段,通过显式且全面的视觉-语言对齐目标弥合模态间差异;在指令微调阶段,引入语义感知的视觉特征提取方法,使模型能够从具体的视觉对象中提取更具信息量的特征。实验结果表明,该方法在13个不同视觉-语言任务的数据集上均取得了稳健的性能表现,并在11个基于场景的基准测试工具包中展现出卓越的多模态理解、感知与对话能力。