
摘要
少样本目标检测旨在仅通过少数示例图像来检测新的类别。这是机器人在开放环境中执行任务的基本技能。近期的方法主要集中在微调策略上,但由于复杂的程序限制了其更广泛的应用。本文介绍了DE-ViT,一种无需微调的少样本目标检测器。DE-ViT的创新架构基于一种新的区域传播机制进行定位。通过一个可学习的空间积分层,传播的区域掩码被转换为边界框。我们提出使用原型将ViT特征投影到一个对基础类过拟合具有鲁棒性的子空间中,而不是训练原型分类器。我们在Pascal VOC、COCO和LVIS数据集上的少样本和单样本目标检测基准上评估了DE-ViT。DE-ViT在所有基准上均建立了新的最先进结果。特别是对于COCO数据集,DE-ViT在10-shot(10个样本)条件下超过当前最先进方法15个mAP,在30-shot(30个样本)条件下超过7.2个mAP,并且在单样本条件下超过SoTA 2.8个AP50。对于LVIS数据集,DE-ViT在box APr指标上超过了少样本最先进方法17个百分点。此外,我们通过构建一个基于示例图像对新对象进行分类的拾取放置系统,使用真实机器人评估了DE-ViT的性能。我们的机器人演示视频、源代码和DE-ViT模型可以在https://mlzxy.github.io/devit找到。