11 天前
面向开放词汇目标检测的物体感知知识蒸馏金字塔
Luting Wang, Yi Liu, Penghui Du, Zihan Ding, Yue Liao, Qiaosong Qi, Biaolong Chen, Si Liu

摘要
开放词汇目标检测旨在使在固定类别集合上训练的目标检测器具备识别由任意文本查询描述的物体的能力。以往的方法通常采用知识蒸馏技术,从预训练的视觉-语言模型(Pretrained Vision-and-Language Models, PVLMs)中提取知识,并将其迁移至检测器中。然而,由于提案裁剪过程缺乏自适应性以及仅采用单层特征模仿机制,这些方法在知识提取过程中易造成信息损失,且知识迁移效率较低。为解决上述局限性,本文提出一种面向目标的蒸馏金字塔框架(Object-Aware Distillation Pyramid, OADP),包含两个核心组件:面向目标的知识提取模块(Object-Aware Knowledge Extraction, OAKE)与蒸馏金字塔机制(Distillation Pyramid, DP)。在从PVLM中提取目标知识时,OAKE模块通过自适应地变换目标提议(object proposals),并引入面向目标的掩码注意力机制,以获取更为精确且完整的物体知识;而DP机制则通过引入全局蒸馏与分块蒸馏策略,实现更全面的知识迁移,有效弥补了传统目标蒸馏中缺失的上下文关系信息。大量实验结果表明,所提方法相较于现有方法取得了显著性能提升。尤其在MS-COCO数据集上,本方法的OADP框架达到了35.6 mAP$^{\text{N}}{50}$的性能,超越当前最先进方法3.3 mAP$^{\text{N}}{50}$。代码已开源,地址为:https://github.com/LutingWang/OADP。