17 天前
DetCLIPv3:迈向通用生成式开放词汇目标检测
Lewei Yao, Renjie Pi, Jianhua Han, Xiaodan Liang, Hang Xu, Wei Zhang, Zhenguo Li, Dan Xu

摘要
现有的开放词汇目标检测方法通常需要用户预先定义类别集合,这在很大程度上限制了其应用场景。本文提出DetCLIPv3,一种高性能的目标检测模型,不仅在开放词汇目标检测任务中表现优异,还具备为检测到的物体生成层次化标签的能力。DetCLIPv3具有三个核心设计:1. 多功能模型架构:我们构建了一个稳健的开放集检测框架,并通过引入描述生成头(caption head)进一步赋予其生成能力,从而实现检测与描述的联合优化;2. 高信息密度数据:我们设计了一种自动标注流水线,利用视觉大语言模型(visual large language model)对大规模图像-文本对中的描述进行精细化优化,为训练提供丰富且多粒度的物体标签;3. 高效训练策略:采用低分辨率输入的预训练阶段,使目标描述生成器能够从海量图像-文本配对数据中高效学习广泛的视觉概念;随后通过少量高分辨率样本进行微调,进一步提升检测性能。得益于上述有效设计,DetCLIPv3在开放词汇目标检测任务中展现出卓越性能:例如,采用Swin-T主干网络的模型在LVIS minival基准上实现了47.0的零样本固定平均精度(zero-shot fixed AP),分别超越GLIPv2、GroundingDINO和DetCLIPv2达18.0、19.6和6.6 AP。此外,DetCLIPv3在VG数据集的密集描述任务(dense captioning)中达到19.7 AP,创下当前最优水平,充分展现了其强大的生成能力。