11 天前
万物的具身化:视觉-语言Transformer中的新兴定位特性
Walid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne

摘要
视觉-语言基础模型在多种零样本场景中表现出色,例如图像检索、分类和图像描述生成。然而,截至目前,这类模型在图像中参照表达式与物体的零样本定位任务上仍表现欠佳,因此通常需要针对该任务进行微调。本文提出,预训练的视觉-语言(VL)模型无需任何微调即可实现零样本开放词汇物体定位。为充分利用这一能力,我们提出了一种“万物定位模块”(Grounding Everything Module, GEM),该模块将CLIPSurgery中提出的值-值注意力机制的思想拓展至自注意力路径。我们证明,自-自注意力机制本质上对应于聚类过程:它促使源自同一物体的标记(tokens)彼此相似,同时保持与语言空间的一致性。为进一步引导分组结构的形成,我们设计了一组正则化策略,使模型能够实现跨数据集和不同主干网络的泛化能力。我们在多个语义分割的基准任务和数据集上对所提出的GEM框架进行了评估,结果表明,GEM不仅优于现有的其他无需训练的开放词汇定位方法,还在近期提出的大型数据集OpenImagesV7语义分割基准上取得了当前最优(SOTA)性能。