
摘要
本文针对开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)这一具有挑战性的问题展开研究。在OVOD任务中,目标检测器需在测试图像中识别出训练过程中见过和未见过的类别,而训练阶段并不提供未见类别的标注样本。目前典型的OVOD方法是利用CLIP模型的联合文本-图像嵌入,将候选框(box proposals)分配给与其最接近的文本标签。然而,该方法存在一个关键问题:许多低质量候选框(如过度覆盖或覆盖不足的物体框)与高质量候选框在CLIP的相似度得分上相同,因为CLIP在训练过程中并未学习精确的物体位置信息。为解决这一问题,本文提出一种新方法——LP-OVOD,通过在从与新文本最相关的区域提案中检索得到的伪标签(pseudo labels)上训练一个Sigmoid线性分类器,自动剔除低质量候选框。在COCO数据集上的实验结果表明,所提方法显著优于现有最先进方法,在使用ResNet50作为主干网络、不依赖外部数据集且训练阶段无需知晓新类别的情况下,实现了$\textbf{40.5}$的$\text{AP}_{novel}$指标。相关代码将开源,地址为:https://github.com/VinAIResearch/LP-OVOD。