11 天前

逐项列出:多模态 LLMs 的新型数据来源与学习范式

An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang
逐项列出:多模态 LLMs 的新型数据来源与学习范式
摘要

Set-of-Mark(SoM)提示方法通过在图像中插入带有字母数字标记的标签,使GPT-4V能够将视觉对象与这些标签建立关联,从而充分释放其视觉定位能力。这些标记以字母数字形式标注,可通过文本标记进行索引,便于后续引用。尽管GPT-4V表现出卓越的性能,我们发现其他多模态大语言模型(MLLMs)在理解此类视觉标签方面仍存在显著困难。为推动开源模型对SoM提示方法的学习,我们提出一种新的训练范式:“逐项列举”,即要求模型按照标签的字母数字顺序,逐一枚举并描述图像中所标注的所有视觉标签。通过将我们构建的专用数据集与其他视觉指令微调数据集相结合,我们成功赋予现有MLLMs SoM提示能力。此外,我们在五个主流MLLM基准测试上对微调后的SoM模型进行了评估。结果表明,即使该数据集规模相对较小(包含1万至3万张带标签的图像),也能显著提升MLLM的视觉推理能力,并有效减少幻觉现象。令人意外的是,这些性能提升在推理阶段即使完全移除图像中的视觉标签后依然保持。这一发现表明,“逐项列举”可能成为训练MLLM的一种新范式:在训练过程中利用视觉标签强化视觉对象与文本之间的对齐关系,从而实现更深层次的语义理解。最后,我们通过模型探针分析(probing analysis)深入研究了训练后模型的工作机制,以揭示SoM提示的内在作用路径。相关代码与数据集已公开,地址为:https://github.com/zzxslp/SoM-LLaVA。

逐项列出:多模态 LLMs 的新型数据来源与学习范式 | 最新论文 | HyperAI超神经