
摘要
目标建议已成为许多视觉流水线的重要预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。与无学习方法相比,基于学习的目标建议由于目标检测领域的日益关注而变得越来越流行。常见的范式是从标记有一组目标区域及其对应类别的数据中学习目标建议。然而,这种方法在面对开放世界中的新目标时往往表现不佳,因为这些新目标在训练集中并不存在。本文指出,现有建议方法中的二分类器倾向于过拟合到训练类别上,这是导致该问题的原因。因此,我们提出了一种无需分类的目标定位网络(Object Localization Network, OLN),该网络仅通过区域的位置和形状与任何真实目标(例如中心性和IoU)的重叠程度来估计每个区域的目标性。这一简单的策略学会了泛化的对象性,并在COCO数据集上的跨类别泛化以及RoboNet、Object365和EpicKitchens数据集上的跨数据集评估中优于现有的建议方法。最后,我们在大型词汇表数据集LVIS上展示了OLN在长尾目标检测方面的优势,在罕见和常见类别中均观察到了明显的改进。