摘要

近期关于通用目标检测的研究致力于将语言信息引入当前最先进的封闭集检测器中，并通过构建大规模（文本-区域）数据集来实现开放集概念的泛化。然而，此类方法面临两大核心挑战：（i）如何高效利用提示（prompt）中的先验信息以实现对物体的泛化；（ii）如何降低下游任务中的对齐偏差。这两方面问题均导致模型在预训练之外的某些场景中表现欠佳。为应对上述挑战，我们提出了一种强大的通用检测基础模型——CP-DETR，该模型仅需一套预训练权重，即可在绝大多数场景下表现出色。具体而言，我们设计了一种高效的提示-视觉混合编码器，通过分尺度与多尺度融合模块，显著增强了提示信息与视觉特征之间的交互能力。随后，借助提示多标签损失函数与辅助检测头，进一步促使混合编码器充分挖掘并利用提示中的语义信息。除文本提示外，我们还提出了两种实用的概念提示生成方法：视觉提示（visual prompt）与优化提示（optimized prompt），前者通过具体的视觉样例提取抽象概念，后者则能稳定地减少下游任务中的对齐偏差。得益于上述有效设计，CP-DETR在广泛多样的应用场景中展现出卓越的通用检测性能。例如，采用Swin-T主干网络的模型在LVIS数据集上实现了47.6的零样本AP；采用Swin-L主干网络的模型在ODinW35数据集上达到32.2的零样本AP。此外，我们的视觉提示生成方法在COCO验证集上通过交互式检测实现了68.4的AP，而优化提示方法在ODinW13数据集上实现了73.1的全样本AP。

源 PDF