HyperAI超神经
Back to Headlines

ARGUS:以视觉注意力引导实现精准多模态推理的新突破

2 days ago

ARGUS 是一种专门为视觉中心场景设计的多模态大型语言模型(MLLM),通过引入新的视觉注意力接地机制解决了现有 MLLM 在精确视觉感知和理解特定感兴趣区域(RoI)方面表现不佳的问题。该研究主要由 Yunzeman 等人完成。 ARGUS 的创新之处在于其提出的自上而下的视觉搜索模块,可以明确地根据文本提示找到图像中最相关的 RoI,从而引导模型在后续的推理过程中更专注于这些区域。具体来说,该框架利用了文本到框的对象中心接地作为中间推理阶段,通过预测边界框来指导模型。 视觉编码器:ARGUS 采用了混合视觉专家(MoVEs)策略,结合了三个不同的视觉基础模型(CLIP、ConvNeXt 和 EVA-02)的输出,以最小的信息损失将图像转换为视觉令牌,并与文本令牌对齐。2D 嵌入经过插值、拼接后,由一个多层感知机(MLP)投影仪映射到文本令牌空间。 LLM 解码器:采用了一个预训练的高性能 LLM(Llama 3-8B)作为变压器解码器,负责预测下一个令牌。 RoI 采样:模型可以根据问题提示预测出相应的边界框,这些边界框以标准化坐标形式表示,用于从输入图像中提取相关 RoI 进行重新参与。 视觉上下文重新参与 ARGUS 探索了四种与采样 RoI 互动的策略: 1. 隐式自我注意力:依靠 LLM 的全局自我注意力来关注视觉上下文,对特定 RoI 控制力较弱。 2. 隐式框指导:通过预测边界框作为文本标记,隐式地引导自我注意力关注 RoI,但不进行显式重新参与。 3. 显式 RoI 重新编码:对由 RoI 定义的图像裁剪部分重新编码,生成新的视觉标记。这种方式能更显式地引入特定上下文信号,但计算成本较高,需要预处理步骤。 4. 显式 RoI 重新采样:从初始编码阶段检索与 RoI 边界框重叠的视觉嵌入,利用缓存的标记提高效率,同时保留位置上下文。 训练流程 训练分为两个阶段: 1. 对齐和预训练:视觉编码器和 MLP 投影仪在 LLaVA-595K 数据集上训练,而 LLM 保持冻结。这一阶段包括视觉专家的预对齐。 2. 监督微调(SFT):整个模型在多样化的数据集上进行微调,包括 Eagle1.8M(对话数据)、VCoT(视觉链式思维)以及接地数据集(GRIT 和 Shikra)。这使得模型能够预测 RoI 边界框并利用视觉链式思维信号。 评估与结果 ARGUS 在多个视觉推理和参考表达接地任务中进行了基准测试。在视觉推理任务中,它在同规模的公开 MLLM 中取得了最先进的性能,尤其是在视觉中心任务和文本理解任务中表现出显著的改进。在参考表达接地任务中,ARGUS 表现领先,具备高精度的视觉定位能力。 链式思维和接地:结合链式思维推理显著提升了性能。显式视觉链式思维(重新编码或重新采样)比隐式框指导提供了更大的增益。 重新参与策略:显式重新编码和重新采样均优于隐式方法。重新采样通常表现更好,因为它更好地保留了上下文,但在需要细粒度小对象详情的任务中,重新编码表现更佳。 编码器容量:更高的容量视觉编码器提升了性能。重新编码比重新采样更依赖初始特征质量。 上下文扩展:适度扩展 RoI 上下文(约 20-40%)有助于处理稍有偏差的边界框和相对位置。重新采样则在原始框大小下表现最佳。过度扩展会影响所有策略的性能。 非共享 MLP:为初始和重新参与的视觉标记使用不同的 MLP 能略微提升重新采样的性能,因为它优化了不同图像/RoI 分布的处理。

Related Links