2 个月前

使用图像级监督检测两万类物体

Zhou, Xingyi ; Girdhar, Rohit ; Joulin, Armand ; Krähenbühl, Philipp ; Misra, Ishan
使用图像级监督检测两万类物体
摘要

当前的目标检测器由于检测数据集规模较小,其词汇量受到限制。相比之下,图像分类器的数据集更大且更容易收集,因此可以处理更大的词汇量。我们提出了一种名为Detic的方法,该方法通过在图像分类数据上训练检测器的分类器,从而将检测器的词汇量扩展到数万个概念。与以往的工作不同,Detic不需要复杂的分配方案来根据模型预测将图像标签分配给边界框,这使得它更容易实现,并且兼容多种检测架构和骨干网络。我们的实验结果表明,即使对于没有边界框注释的类别,Detic也能生成优秀的检测器。在开放词汇和长尾检测基准测试中,Detic的表现均优于先前的工作。在开放词汇LVIS基准测试中,Detic为所有类别提供了2.4个mAP(平均精度均值)的提升,为新类别提供了8.3个mAP的提升。在标准LVIS基准测试中,当对所有类别或仅罕见类别进行评估时,Detic分别获得了41.7个mAP的成绩,从而缩小了样本较少的对象类别的性能差距。首次,我们使用ImageNet数据集中全部二万一千个类别训练了一个检测器,并展示了该检测器无需微调即可泛化到新的数据集上。代码已发布在\url{https://github.com/facebookresearch/Detic}。