
摘要
开放词汇检测(OVD)是一项旨在从训练时未见过的新类别中识别对象的任务。近期的OVD方法依赖于大规模视觉-语言预训练模型,如CLIP,来识别新类别对象。我们确定了在将这些模型整合到检测器训练过程中需要解决的两个核心障碍:(1) 当将一个在整张图像上训练的视觉-语言模型应用于区域识别任务时出现的分布不匹配问题;(2) 定位未见过类别的对象的困难。为了解决这些障碍,我们提出了CORA,这是一种基于DETR框架的方法,通过区域提示和锚点预匹配将CLIP适应于开放词汇检测。区域提示通过提示CLIP基础区域分类器的区域特征来缓解整体到局部的分布差异。锚点预匹配则通过一种类别感知的匹配机制帮助学习可泛化的对象定位。我们在COCO OVD基准上评估了CORA,在新类别上的AP50达到了41.7%,比之前的最先进方法高出2.4 AP50,且无需额外的训练数据。当有额外的训练数据可用时,我们对CORA$^+$进行了训练,不仅使用了真实的基础类别注释,还使用了由CORA计算出的附加伪边界框标签。CORA$^+$在COCO OVD基准上的AP50达到43.1%,在LVIS OVD基准上的box APr达到28.1%。