11 天前

基于图像-语言相似性的重评分用于少样本目标检测

Min Jae Jung, Seung Dae Han, Joohee Kim
基于图像-语言相似性的重评分用于少样本目标检测
摘要

少样本目标检测(Few-shot object detection)旨在仅用少量标注样本检测新类别目标,是当前学术界的一项新兴挑战。近期研究表明,通过微调预训练模型或改进损失函数可有效提升检测性能。本文探索在低数据条件下利用对比语言-图像预训练模型(Contrastive Language-Image Pre-training, CLIP)与难负样本分类损失的潜力。为此,我们提出一种基于图像-语言相似性的重评分方法——少样本目标检测重评分方法(Re-scoring using Image-language Similarity for Few-shot object detection, RISF)。该方法在Faster R-CNN基础上引入两个核心组件:基于CLIP的校准模块(Calibration Module using CLIP, CM-CLIP)与背景负样本重缩放损失(Background Negative Re-scale Loss, BNRL)。其中,CM-CLIP利用CLIP模型的零样本分类能力,通过图像与类别之间的语义相似性对检测器的分类得分进行重校准;BNRL则是一种改进的分类损失函数,旨在对虚假背景以及易混淆类别施加更强惩罚,从而提升在广义少样本目标检测数据集上的表现。在MS-COCO与PASCAL VOC数据集上的大量实验表明,所提出的RISF显著优于现有最先进方法。代码将公开发布。

基于图像-语言相似性的重评分用于少样本目标检测 | 最新论文 | HyperAI超神经