11 天前

基于候选框挖掘与预测均衡的开放词汇目标检测

Peixian Chen, Kekai Sheng, Mengdan Zhang, Mingbao Lin, Yunhang Shen, Shaohui Lin, Bo Ren, Ke Li
基于候选框挖掘与预测均衡的开放词汇目标检测
摘要

开放词汇目标检测(Open-vocabulary Object Detection, OVD)旨在扩展词汇量,以实现对训练阶段未见类别物体的检测。近期研究依赖于预训练视觉-语言模型中蕴含的丰富知识,但现有方法在提案级别(proposal-level)的视觉-语言对齐方面表现不佳。同时,模型通常对基础类别存在置信度偏差,导致在新类别上的检测性能下降。为应对上述挑战,本文提出一种新颖且高效的OVD框架——MEDet,其核心包含提案挖掘(proposal mining)与预测均衡化(prediction equalization)机制。首先,我们设计了一种在线提案挖掘策略,将粗粒度继承的视觉-语义知识逐步精细化,从而实现面向检测任务的提案级别特征对齐。其次,基于因果推断理论,引入类别级后门调整(class-wise backdoor adjustment)机制,以增强对新类别的预测能力,进而提升整体OVD性能。在COCO与LVIS基准上的大量实验验证了MEDet在检测新类别物体方面的显著优势,例如在COCO上达到32.6%的AP50,在LVIS上实现22.4%的掩码mAP。

基于候选框挖掘与预测均衡的开放词汇目标检测 | 最新论文 | HyperAI超神经