
摘要
预训练的视觉-语言模型(Vision-Language Models, VLMs)在大规模数据集上学习对齐视觉与语言表征,其中每张图像-文本对通常包含一组语义概念。然而,现有的开放词汇目标检测方法仅将区域嵌入(region embeddings)单独与VLM提取的对应特征进行对齐。这种设计忽略了场景中语义概念之间的组合结构,尽管该结构可能已被VLM隐式学习。在本工作中,我们提出一种新方法,对区域集合(bag of regions)的嵌入进行联合对齐,而不仅限于单个区域。具体而言,该方法将语义上相关联的区域分组为一个集合,将集合内各区域的嵌入视为句子中的词语嵌入,并将其输入VLM的文本编码器,以获得“区域集合嵌入”(bag-of-regions embedding)。该嵌入被训练以与冻结的VLM提取的对应特征对齐。将该方法应用于广泛使用的Faster R-CNN框架,在开放词汇COCO和LVIS基准测试的新类别上,分别取得了4.6个box AP50和2.8个mask AP的性能提升,超越了此前最优结果。相关代码与模型已开源,地址为:https://github.com/wusize/ovdet。