6 个月前

摘要

现有的开放词汇目标检测方法通常需要用户预先定义类别集合，这在很大程度上限制了其应用场景。本文提出DetCLIPv3，一种高性能的目标检测模型，不仅在开放词汇目标检测任务中表现优异，还具备为检测到的物体生成层次化标签的能力。DetCLIPv3具有三个核心设计：1. 多功能模型架构：我们构建了一个稳健的开放集检测框架，并通过引入描述生成头（caption head）进一步赋予其生成能力，从而实现检测与描述的联合优化；2. 高信息密度数据：我们设计了一种自动标注流水线，利用视觉大语言模型（visual large language model）对大规模图像-文本对中的描述进行精细化优化，为训练提供丰富且多粒度的物体标签；3. 高效训练策略：采用低分辨率输入的预训练阶段，使目标描述生成器能够从海量图像-文本配对数据中高效学习广泛的视觉概念；随后通过少量高分辨率样本进行微调，进一步提升检测性能。得益于上述有效设计，DetCLIPv3在开放词汇目标检测任务中展现出卓越性能：例如，采用Swin-T主干网络的模型在LVIS minival基准上实现了47.0的零样本固定平均精度（zero-shot fixed AP），分别超越GLIPv2、GroundingDINO和DetCLIPv2达18.0、19.6和6.6 AP。此外，DetCLIPv3在VG数据集的密集描述任务（dense captioning）中达到19.7 AP，创下当前最优水平，充分展现了其强大的生成能力。

源 PDF