8 个月前

摘要

我们介绍了一种名为MQ-Det的高效架构和预训练策略设计，该设计利用开放集泛化下的文本描述和具有丰富描述粒度的视觉示例作为类别查询，即多模态查询目标检测（Multi-modal Queried object Detection），用于现实世界中同时包含开放词汇类别和多种粒度的目标检测。MQ-Det将视觉查询整合到现有的仅基于语言查询的检测器中。提出了一种可插拔的门控类别扩展感知模块，该模块在冻结的检测器之上运行，以增强类别文本中的类别特定视觉信息。为了解决由冻结检测器带来的学习惰性问题，提出了一种基于视觉条件的掩码语言预测策略。MQ-Det的简单而有效的架构和训练策略设计与大多数语言查询目标检测器兼容，从而实现了广泛的应用。实验结果表明，多模态查询显著提升了开放世界的检测性能。例如，在LVIS基准测试中，通过多模态查询且无需下游微调的情况下，MQ-Det将最先进的开放集检测器GLIP的平均精度（AP）提高了7.8%，并在13个少样本下游任务中平均提高了6.3%的AP，仅需额外增加GLIP所需的3%调节时间。代码可在https://github.com/YifanXu74/MQ-Det 获取。

源 PDF