11 天前
LaMI-DETR:基于语言模型指令的开放词汇检测
Penghui Du, Yu Wang, Yifan Sun, Luting Wang, Yue Liao, Gang Zhang, Errui Ding, Yan Wang, Jingdong Wang, Si Liu

摘要
现有方法通过利用视觉-语言模型(VLMs)如CLIP所具备的强大学术开放词汇识别能力,提升了开放词汇目标检测的性能。然而,仍面临两大主要挑战:(1)概念表征不足,即CLIP文本空间中的类别名称缺乏充分的文本与视觉知识;(2)对基础类别存在过拟合倾向,在将VLM知识迁移至检测器的过程中,开放词汇知识偏向于基础类别。为应对上述问题,本文提出语言模型指令(Language Model Instruction, LaMI)策略,该策略通过挖掘视觉概念之间的关联关系,并将其应用于一种简洁而高效的DETR类检测器——LaMI-DETR中。LaMI利用GPT构建视觉概念,并借助T5模型分析类别间的视觉相似性,从而优化概念表征并有效避免对基础类别的过拟合。大量实验证明,在相同严格评估设置下,本方法无需依赖外部训练资源,即可在性能上显著优于现有方法。LaMI-DETR在OV-LVIS数据集上实现了43.4的罕见类别框平均精度(rare box AP),较此前最优方法提升7.8个点,展现出卓越的开放词汇检测能力。