摘要

开放词汇检测是一项具有挑战性的任务，因为它需要基于类别名称检测对象，包括那些在训练过程中未遇到的对象。现有的方法通过在多样化的大型数据集上进行预训练和伪标签生成，展示了强大的零样本检测能力。然而，这些方法面临两个主要挑战：(i) 如何有效消除伪标签生成中的数据噪声，以及 (ii) 如何高效利用语言感知能力进行区域级别的跨模态融合和对齐。为了解决这些问题，我们提出了一种新的统一开放词汇检测方法——OV-DINO，该方法在一个统一框架中通过语言感知选择性融合在多样化的大型数据集上进行了预训练。具体而言，我们引入了一个统一的数据集成（UniDI）管道，以实现端到端的训练，并通过将不同的数据源统一为检测中心的数据格式来消除伪标签生成中的噪声。此外，我们提出了一种语言感知选择性融合（LASF）模块，通过语言感知查询选择和融合过程增强跨模态对齐。我们在流行的开放词汇检测基准上评估了所提出的 OV-DINO 的性能，在零样本情况下，在 COCO 基准上达到了 50.6% 的平均精度（AP），在 LVIS 基准上达到了 40.1% 的平均精度（AP），展示了其强大的泛化能力。进一步地，在 COCO 上微调后的 OV-DINO 达到了 58.4% 的平均精度（AP），超过了具有相同骨干网络的许多现有方法。OV-DINO 的代码可在 https://github.com/wanghao9610/OV-DINO 获取。

源 PDF