
摘要
零样本检测(Zero-shot detection, ZSD)在大规模目标检测中至关重要,其目标是同时定位和识别未见过的对象。ZSD 仍面临若干挑战,包括减少背景与未见过对象之间的模糊性以及提高视觉和语义概念之间的对齐度。在本研究中,我们提出了一种名为背景可学习级联(Background Learnable Cascade, BLC)的新框架,以提升 ZSD 的性能。BLC 的主要贡献如下:(i) 我们提出了一种多阶段级联结构,称为级联语义 R-CNN(Cascade Semantic R-CNN),用于逐步改进 ZSD 中视觉与语义的对齐;(ii) 我们开发了语义信息流结构,并将其直接添加到级联语义 R-CNN 的每个阶段之间,以进一步提升语义特征的学习效果;(iii) 我们提出了背景可学习区域提议网络(Background Learnable Region Proposal Network, BLRPN),用于为背景类学习合适的词向量,并将该学习到的向量应用于级联语义 R-CNN 中,这一设计使得“背景可学习”并减少了背景与未见过类别之间的混淆。我们的大量实验表明,BLC 在 MS-COCO 数据集上相比现有最先进方法取得了显著的性能提升。