
开放词汇目标检测(Open-vocabulary Object Detection, OVD)近年来借助视觉-语言模型(Vision-Language Models, VLMs)取得了显著进展,实现了对预训练类别之外新类别的检测能力。以往的方法通过引入带有额外“类别”名称的“正向”伪标签(如 sock、iPod、alligator)来提升检测器的泛化能力,从而扩展其知识范围。为在两个方面进一步推进现有方法,本文提出了一种名为检索增强损失与视觉特征(Retrieval-Augmented Losses and visual Features, RALF)的新框架。RALF 通过检索相关的“负向”类别,并对损失函数进行增强,同时利用大语言模型(LLM)生成的“概念化描述”对视觉特征进行扩充。具体而言,这些概念化描述包括“穿在脚上”“手持式音乐播放器”“锋利的牙齿”等,以更丰富地表达类别的语义内涵。RALF 由两个核心模块构成:检索增强损失(Retrieval-Augmented Losses, RAL)与检索增强视觉特征(Retrieval-Augmented visual Features, RAF)。其中,RAL 模块设计了两种损失函数,用于反映检测结果与负向词汇之间的语义差异,从而提升对未知类别的区分能力;RAF 模块则通过引入 LLM 生成的类别的语言化概念,对原始视觉特征进行语义增强,使模型能够更好地理解类别间的语义边界。在 COCO 和 LVIS 基准数据集上的实验结果表明,RALF 具有显著的有效性。在 COCO 数据集的新类别上,盒检测平均精度(box AP${50}^{\text{N}}$)提升最高达 3.4;在 LVIS 数据集上,掩码平均精度(mask AP${\text{r}}$)提升最高达 3.6。相关代码已开源,地址为:https://github.com/mlvlab/RALF。