
摘要
随着深度学习的兴起,目标检测从自底向上的问题转变为自顶向下的识别问题。最先进的算法几乎详尽地列举了所有可能的目标位置,并对每个位置进行分类:是否为目标。在本文中,我们展示了自底向上方法仍然具有竞争力。我们使用标准的关键点估计网络来检测目标的四个极值点(最顶端、最左端、最底端、最右端)和一个中心点。如果这五个关键点在几何上对齐,则将它们组合成一个边界框。因此,目标检测成为一个纯粹基于外观的关键点估计问题,无需区域分类或隐式特征学习。所提出的方法在性能上与最先进的基于区域的检测方法相当,在COCO测试开发集上的边界框平均精度(AP)为43.2%。此外,我们估计的极值点可以直接生成一个粗略的八边形掩码,其COCO掩码AP为18.9%,远优于普通边界框的掩码AP。通过极值点引导的分割进一步将这一指标提升至34.6%的掩码AP。