2 个月前
OV-DQUO:开放词汇量DETR结合去噪文本查询训练和开放世界未知对象监督
Junjie Wang; Bin Chen; Bin Kang; Yulin Li; YiChi Chen; Weizhi Xian; Huifeng Chang; Yong Xu

摘要
开放词汇检测旨在识别超出训练基础类别范围的新类别对象。然而,现有的基于基础类别数据训练的开放词汇检测器往往对已训练的类别赋予更高的置信度,并将新类别与背景混淆。为了解决这一问题,我们提出了一种新的方法——OV-DQUO(\textbf{O}pen-\textbf{V}ocabulary DETR with \textbf{D}enoising text \textbf{Q}uery training and open-world \textbf{U}nknown \textbf{O}bjects supervision),即具有去噪文本查询训练和开放世界未知对象监督的开放词汇DETR。具体而言,我们引入了一种通配符匹配方法。该方法使检测器能够从开放世界检测器识别的未知对象及其具有一般语义的文本嵌入对中学习,从而缓解基础类别和新类别之间的置信度偏差。此外,我们提出了一种去噪文本查询训练策略。该策略通过对比学习合成了来自开放世界未知对象的前景和背景查询框对,以增强检测器区分新类别对象与背景的能力。我们在具有挑战性的OV-COCO和OV-LVIS基准上进行了广泛的实验,分别在新类别上取得了45.6 AP50和39.3 mAP的新最先进结果,而无需额外的训练数据。模型和代码已发布在\url{https://github.com/xiaomoguhz/OV-DQUO}。