
摘要
现有的视觉计数研究主要集中在一次仅对某一特定类别进行计数,例如人群、动物和细胞。本文旨在实现对所有类别的对象进行计数,即在给定某一类别少量标注实例的情况下,预测查询图像中所有感兴趣对象的存在密度图。为此,我们将计数问题视为一个少样本回归任务。为了解决这一任务,我们提出了一种新颖的方法,该方法接受一张查询图像及其包含的几个示例对象,并预测出查询图像中所有感兴趣对象的密度图。此外,我们还提出了一种新的适应策略,能够在测试时仅使用少量来自新类别的示例对象,使网络适应任何新的视觉类别。我们还引入了一个包含147个对象类别的数据集,其中包含超过6000张适合少样本计数任务的图像。这些图像具有两种类型的标注:点和边界框,可用于开发少样本计数模型。在该数据集上的实验表明,我们的方法优于几种最先进的目标检测器和少样本计数方法。我们的代码和数据集可以在 https://github.com/cvlab-stonybrook/LearningToCountEverything 获取。