
摘要
开放词汇目标检测(Open-vocabulary object detection)旨在通过自然语言引导来检测新类别物体,近年来受到学术界的广泛关注。理想情况下,我们希望扩展开放词汇检测器,使其能够根据用户输入的自然语言描述或示例图像,生成相应的边界框预测结果,从而为人机交互提供极大的灵活性与良好的用户体验。为此,我们提出了一种基于DETR架构的新型开放词汇检测器——OV-DETR。该模型在训练完成后,能够根据物体的类别名称或一张示例图像,检测出任意目标。将DETR转化为开放词汇检测器所面临的最大挑战在于:在未见类别缺乏标注图像的情况下,无法计算其分类代价矩阵。为克服这一难题,我们提出将学习目标建模为输入查询(类别名称或示例图像)与对应目标之间的二元匹配任务,从而学习到具有泛化能力的对应关系,使其在测试阶段能够有效应对未见查询。在训练过程中,我们采用预训练的视觉-语言模型(如CLIP)提取输入嵌入,并将其作为Transformer解码器的条件输入,以实现对文本查询和图像查询的统一匹配。在LVIS和COCO数据集上的大量实验表明,OV-DETR作为首个端到端的基于Transformer的开放词汇检测器,相较于当前主流方法取得了显著且非平凡的性能提升。