1 天前

Boyuan Sun Bowen Yin Yuanming Li Xihan Wei Qibin Hou

摘要

我们提出了SWIM（See What I Mean，即“看我意指之物”），这是一种新颖的训练策略，旨在仅通过文本提示（textual prompts）实现对视觉与语言表征的对齐，从而支持细粒度对象理解。与现有需要显式视觉提示（如掩码或点）的方法不同，SWIM仅在训练阶段利用掩码监督来引导跨模态注意力（cross-modal attention），使得模型在推理时能够自动关注用户指定的对象。我们对预训练的多模态大语言模型（MLLMs）进行的跨注意力分析揭示了一种系统性差异：属性词在视觉模态中产生尖锐且局部的激活，而对象名词由于语义参考偏差和分布式高层表征，则产生弥散且分散的模式。为解决这一不对齐问题，我们构建了NL-Refer这一增强数据集，其中每个对象掩码都与精确的自然语言指代表达式配对。SWIM从对象名词中提取多层跨注意力图，并强制其与真实掩码（ground-truth masks）保持空间一致性。实验结果表明，SWIM显著改善了文本-视觉对齐效果，并在细粒度对象理解基准测试中取得了优于基于视觉提示方法的表现。代码和数据可在 https://github.com/HumanMLLM/SWIM 获取。

一句话总结

SWIM（See What I Mean）是一种训练策略，通过利用 NL-Refer 数据集强制对象名词的多层交叉注意力图与真实掩码（ground-truth masks）保持空间一致性，从而对齐视觉与语言表征。该策略仅依赖文本提示即可实现细粒度对象理解，并在细粒度对象理解基准测试中展现出优于基于视觉提示方法的性能。

核心贡献

NL-Refer 数据集将对象掩码与精确的自然语言指代表达式配对，以解决系统性注意力差异问题，即相较于属性词，对象名词会产生弥散状的视觉激活。
SWIM 在训练过程中强制对象名词的多层交叉注意力图与真实掩码保持空间一致性，使模型在推理阶段能够仅凭纯文本提示实现精确的视觉定位（visual grounding）。
在细粒度对象理解基准上的实验表明，SWIM 显著提升了文本与视觉的对齐效果，并优于基于视觉提示的方法。

引言

多模态大语言模型（MLLMs）在通用场景理解方面表现优异，但在精确自然语言所引用的特定对象的定位与推理方面存在困难。这一局限性阻碍了直观交互的实现，而用户通常期望仅通过文本即可获得引导。先前的方法通常依赖掩码或边界框等显式视觉提示，并需要额外的编码器，这增加了计算开销，且偏离了自然的用户工作流程。本文作者还发现现有模型中存在系统性对齐偏差：由于语义参考偏差以及高层语义的分布式特性，属性词会产生锐利的视觉激活，而对象名词则产生弥散模式。为解决上述问题，作者提出了 SWIM。这是一种训练策略，仅在微调阶段利用掩码监督，强制对象名词的交叉注意力图与真实掩码保持空间一致性。此外，他们还发布了 NL-Refer 数据集，该数据集富含精确的自然语言指代表达式，使模型在推理阶段无需视觉提示或架构修改，即可仅凭纯文本实现卓越的细粒度对象理解。

数据集

构成与来源： 作者基于 VideoRefer 构建 NL-Refer 数据集。每个样本被组织为四元组，包含视频、优化后的人工提示、GPT 生成的描述以及目标区域的像素级实例掩码。
关键子集细节： 原始人工提示包含通用的 <region> 占位符。作者使用 GPT-4o 根据配对 GPT 回复中的显著描述符生成简洁的指代表达式来替换这些占位符。每个表达式仅提取最具代表性的单个对象名词，并用 <ins> 标记 tokens 将其包裹，以实现确定性的 token 级对齐。
数据使用与训练应用： 作者使用优化后的数据集为交叉注意力机制提供显式监督，使模型能够学习特定对象名词的文本-视觉直接对应关系。训练期间，标记的词汇 tokens 会与其对应的真实掩码直接对齐。提供的节选未说明数据集规模、过滤阈值或训练集划分比例。
元数据与处理细节： 处理流程采用两步转换，先将占位符替换为生成的短语，随后进行行内标记。这种元数据构建在保留原始对话结构的同时嵌入了显式语义内容。文中未详细说明裁剪策略或额外的过滤规则。

方法

作者采用了一种细粒度模型架构，旨在提升多模态大语言模型（MLLMs）中对象名词与其对应视觉区域之间的跨模态对齐效果。该框架处理视频输入及包含带标记对象名词的文本提示，该名词与真实掩码相关联。如框架图所示，模型在推理阶段无需任何视觉提示即可运行。

训练期间，输入文本提示 $H_i$ 首先通过自然语言重写模块进行改写，生成优化提示 $\hat{H}_i$ ，随后被 token 化为长度为 $L_t$ 的 tokens 序列，生成文本嵌入 $\mathbf{X}^t \in \mathbb{R}^{L_t \times d}$ 。视觉输入表示为包含 $L_v$ 个视觉 tokens 的序列 $\mathbf{X}^v \in \mathbb{R}^{L_v \times d}$ ，由视觉编码器处理。这些视觉 tokens 通过大语言模型的交叉注意力层与文本嵌入进行交互。

如图下方所示，对于位置 $j_i$ 处的给定标记名词 token $w_i$ ，该 token 到第 $l$ 层视觉 tokens 的交叉注意力权重通过标准注意力机制计算。标记名词 token 的查询向量 $\mathbf{Q}^t_l[j_i]$ 用于与所有视觉 token 的键向量 $\mathbf{K}^v_l$ 计算注意力分数。注意力权重计算如下：

\mathbf{A}_{l,i} = \operatorname{softmax} \left( \frac{\mathbf{Q}_l^t[j_i] (\mathbf{K}_l^v)^\top}{\sqrt{d}} \right),

其中 softmax 函数作用于 $L_v$ 个视觉 token 位置。 $\mathbf{A}_{l,i}$ 的每个元素表示该名词 token 在第 $l$ 层对各个视觉 token 的注意力程度。

为实现空间监督，注意力向量 $\mathbf{A}_{l,i}$ 被映射到与真实掩码 $M_i$ 对齐的原始特征网格（分辨率 $(H, W)$ ）。该映射遵循视觉 tokens 与编码器 patch 之间的空间对应关系。若特征网格分辨率与 token 网格不同，则应用双线性插值以精确匹配掩码分辨率。第 $l$ 层生成的注意力图记为 $\mathbf{A}_{l,i} \in [0,1]^{H \times W}$ 。

由于注意力模式可能随层级变化，作者通过对选定层级集合 $\mathcal{S}$ 的注意力图进行简单平均进行聚合：

\bar{\mathbf{A}}_i = \frac{1}{|\mathcal{S}|} \sum_{l \in \mathcal{S}} \mathbf{A}_{l,i}.

聚合后的图 $\bar{\mathbf{A}}_i$ 在考虑多层差异后，捕捉了标记对象名词 $w_i$ 与其视觉区域之间稳定的跨模态对应关系。

最后，使用像素级二元交叉熵损失，以二元掩码 $M_i$ 对聚合注意力图 $\bar{\mathbf{A}}_i$ 进行监督：

\mathcal{L}_{\mathrm{BCE}}^{(i)} = - \frac{1}{HW} \sum_{u=1}^{H} \sum_{v=1}^{W} \left[ M_i(u,v) \log \bar{\mathbf{A}}_i(u,v) + (1 - M_i(u,v)) \log (1 - \bar{\mathbf{A}}_i(u,v)) \right],

其中 $M_i(u,v) \in \{0,1\}$ 表示像素 $(u,v)$ 是否属于目标对象。通过在监督微调期间提供此显式对齐信号，模型学会将对象名词的交叉注意力持续集中于其正确的视觉区域，从而在不修改基础架构的情况下增强细粒度理解。值得注意的是，掩码 $M_i$ 仅在训练期间用于注意力正则化，推理阶段无需使用。

实验

评估在专用的细粒度视频对象理解基准和广泛的通用视频理解套件上进行，以验证其跨模态对齐能力。细粒度与定性评估表明，定向注意力正则化显著提升了空间定位精度，使模型能够严格遵循显式文本提示来准确定位和描述特定对象，而非默认依赖视觉显著元素。消融实验验证了最优训练配置，证实均匀分布的注意力监督、均值融合与二元交叉熵损失最能稳定跨模态对齐。最后，可扩展性实验表明，随着掩码标注数据量的增加，性能持续提升，最终构建了一个稳健的框架，在提升精确文本-视觉对应关系的同时，未损害通用视频推理能力。

作者在 VideoRefer-Bench-D 基准上评估了 SWIM，并将其与 Qwen2.5-VL-7B 及其变体进行对比。结果表明，SWIM 在所有评估指标上均取得更高分数，尤其在空间对应和外观描述方面，表明语言与视觉区域之间的对齐得到改善。在使用额外监督信号时，模型性能进一步提升，证明了其在细粒度对象定位中的有效性。SWIM 在 VideoRefer-Bench-D 的所有指标上均优于 Qwen2.5-VL-7B，在空间和外观描述方面提升显著。显式监督的加入改善了整体对齐效果，使模型对目标对象的注意力更加准确和集中。与基线相比，SWIM 在精确度（precision）、AUC、NSS 和 AP 上的更高分数证明了其更强的文本-视觉定位能力。

作者在通用视频理解基准上评估了 SWIM，并将其性能与多种先进模型进行对比。结果显示，SWIM 在多项指标上均表现出具有竞争力的性能，证明其针对细粒度对齐的训练策略并未削弱通用视频理解能力。该模型在三项基准中的两项上优于现有方法，展现出强大的泛化能力。与现有模型相比，SWIM 在通用视频理解基准上取得了具有竞争力的结果。在评估的三项基准中，SWIM 在其中两项上优于其他方法。尽管针对细粒度对象理解进行了优化，该模型仍保持了强大的泛化能力。

作者评估了 SWIM 中用于交叉注意力监督的不同损失函数，并衡量其对细粒度视频理解任务的影响。结果表明，二元交叉熵（BCE）损失取得了最高平均分，且在各项独立指标上均优于 mIoU、Focal 和 Dice 等替代损失函数。BCE 损失在所有指标上均超越其他损失函数。与替代方案相比，BCE 在主体对应和时间描述任务上均能持续提升性能。表现最佳的损失函数为细粒度对象定位带来了更准确且稳定的注意力对齐。

作者在 GamePoint 指标上对比了 SWIM 与 Qwen2.5-VL-7B，该指标用于衡量最高注意力区域与对象掩码的对齐程度。结果表明，SWIM 在所有阈值下均持续优于基线，表明其对指定对象的注意力更加集中和准确。性能提升在最高置信度水平下最为显著，表明注意力峰值更加锐利。与 Qwen2.5-VL-7B 相比，SWIM 在所有注意力阈值下均实现了更高的对象掩码对齐度。性能增益在最高置信度层级最为明显，表明注意力定位更加精确。SWIM 产生了更锐利的注意力峰值，减少了弥散激活并改善了对象定位。

作者对比了 SWIM 中跨层融合注意力图的不同方法，并评估其对细粒度视频理解任务的影响。结果表明，均值聚合取得了最高的平均性能，优于加法、池化和逐元素乘积，表明对注意力图求平均能为精确对象定位提供更有效的对齐信号。在测试的方法中，均值融合的平均性能最高。逐元素乘积因过度抑制中等注意力区域而表现不佳。与均值聚合相比，加法和池化融合方法的结果较低。

作者在专用视频定位基准、通用视频理解任务以及组件消融实验中对 SWIM 进行了全面评估，以验证其对齐能力和架构设计。该模型在空间对应和外观描述方面持续优于强基线，同时保持了具有竞争力的通用理解能力，证实了定向细粒度训练不会损害更广泛的理解能力。消融分析进一步表明，二元交叉熵损失与均值注意力融合通过减少弥散激活和稳定交叉注意力对齐，有效提升了对象定位精度。综上所述，这些结果验证了 SWIM 的设计成功增强了精确的视觉-文本定位，且未牺牲通用视频推理能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

1 天前

Boyuan Sun Bowen Yin Yuanming Li Xihan Wei Qibin Hou

摘要

一句话总结

核心贡献

NL-Refer 数据集将对象掩码与精确的自然语言指代表达式配对，以解决系统性注意力差异问题，即相较于属性词，对象名词会产生弥散状的视觉激活。
SWIM 在训练过程中强制对象名词的多层交叉注意力图与真实掩码保持空间一致性，使模型在推理阶段能够仅凭纯文本提示实现精确的视觉定位（visual grounding）。
在细粒度对象理解基准上的实验表明，SWIM 显著提升了文本与视觉的对齐效果，并优于基于视觉提示的方法。

引言

数据集

构成与来源： 作者基于 VideoRefer 构建 NL-Refer 数据集。每个样本被组织为四元组，包含视频、优化后的人工提示、GPT 生成的描述以及目标区域的像素级实例掩码。
关键子集细节： 原始人工提示包含通用的 <region> 占位符。作者使用 GPT-4o 根据配对 GPT 回复中的显著描述符生成简洁的指代表达式来替换这些占位符。每个表达式仅提取最具代表性的单个对象名词，并用 <ins> 标记 tokens 将其包裹，以实现确定性的 token 级对齐。
数据使用与训练应用： 作者使用优化后的数据集为交叉注意力机制提供显式监督，使模型能够学习特定对象名词的文本-视觉直接对应关系。训练期间，标记的词汇 tokens 会与其对应的真实掩码直接对齐。提供的节选未说明数据集规模、过滤阈值或训练集划分比例。
元数据与处理细节： 处理流程采用两步转换，先将占位符替换为生成的短语，随后进行行内标记。这种元数据构建在保留原始对话结构的同时嵌入了显式语义内容。文中未详细说明裁剪策略或额外的过滤规则。

方法

\mathbf{A}_{l,i} = \operatorname{softmax} \left( \frac{\mathbf{Q}_l^t[j_i] (\mathbf{K}_l^v)^\top}{\sqrt{d}} \right),

其中 softmax 函数作用于 $L_v$ 个视觉 token 位置。 $\mathbf{A}_{l,i}$ 的每个元素表示该名词 token 在第 $l$ 层对各个视觉 token 的注意力程度。

由于注意力模式可能随层级变化，作者通过对选定层级集合 $\mathcal{S}$ 的注意力图进行简单平均进行聚合：

\bar{\mathbf{A}}_i = \frac{1}{|\mathcal{S}|} \sum_{l \in \mathcal{S}} \mathbf{A}_{l,i}.

聚合后的图 $\bar{\mathbf{A}}_i$ 在考虑多层差异后，捕捉了标记对象名词 $w_i$ 与其视觉区域之间稳定的跨模态对应关系。

最后，使用像素级二元交叉熵损失，以二元掩码 $M_i$ 对聚合注意力图 $\bar{\mathbf{A}}_i$ 进行监督：

\mathcal{L}_{\mathrm{BCE}}^{(i)} = - \frac{1}{HW} \sum_{u=1}^{H} \sum_{v=1}^{W} \left[ M_i(u,v) \log \bar{\mathbf{A}}_i(u,v) + (1 - M_i(u,v)) \log (1 - \bar{\mathbf{A}}_i(u,v)) \right],

实验

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

理解我的意思：对齐视觉和语言表示以实现视频细粒度对象理解

Boyuan Sun Bowen Yin Yuanming Li Xihan Wei Qibin Hou

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

理解我的意思：对齐视觉和语言表示以实现视频细粒度对象理解

Boyuan Sun Bowen Yin Yuanming Li Xihan Wei Qibin Hou

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

理解我的意思：对齐视觉和语言表示以实现视频细粒度对象理解

Boyuan Sun Bowen Yin Yuanming Li Xihan Wei Qibin Hou

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters