2 个月前
语义引导的对比网络用于零样本目标检测
Caixia Yan; Xiaojun Chang; Minnan Luo; Huan Liu; Xiaoqin Zhang; Qinghua Zheng

摘要
零样本目标检测(Zero-shot Object Detection, ZSD)是指将传统检测模型扩展到识别未见过类别的对象,这一任务已成为计算机视觉领域的新挑战。现有的大多数方法通过严格的映射转移策略来解决ZSD任务,这可能导致次优的ZSD结果:1)这些模型的学习过程忽略了可用的未见类别信息,因此容易偏向已见类别;2)原始的视觉特征空间结构不佳,缺乏区分性信息。为了解决这些问题,我们开发了一种新颖的语义引导对比网络用于ZSD,命名为ContrastZSD。这是一种检测框架,首次将对比学习机制引入零样本检测领域。具体而言,ContrastZSD结合了两个语义引导的对比学习子网,分别对区域-类别对和区域-区域对进行对比。成对的对比任务利用了来自真实标签和预定义类别相似度分布的额外监督信号。在这些明确的语义监督指导下,模型可以学习更多关于未见类别的知识,以避免偏向已见概念的问题,同时优化视觉特征的数据结构,使其更具区分性,从而实现更好的视觉-语义对齐。我们在两个流行的ZSD基准数据集PASCAL VOC和MS COCO上进行了广泛的实验。结果显示,我们的方法在这两个ZSD任务和广义ZSD任务上均优于之前的最先进方法。