
摘要
检测方法通过将图像中的物体识别为轴对齐的框来实现。大多数成功的物体检测器会枚举几乎所有的潜在物体位置,并对每个位置进行分类。这种方法既浪费资源,效率低下,又需要额外的后处理步骤。在本文中,我们采取了一种不同的方法。我们将物体建模为一个单一的点——其边界框的中心点。我们的检测器利用关键点估计来找到这些中心点,并回归到其他所有物体属性,如大小、三维位置、方向甚至姿态。基于中心点的方法CenterNet是端到端可微分的,比相应的基于边界框的检测器更简单、更快且更准确。CenterNet在MS COCO数据集上实现了最佳的速度与精度权衡,分别以142帧每秒(FPS)达到28.1%平均精度(AP)、以52帧每秒达到37.4%平均精度以及在多尺度测试下以1.4帧每秒达到45.1%平均精度。我们还使用相同的方法在KITTI基准数据集中估计三维边界框,并在COCO关键点数据集中估计人体姿态。我们的方法与复杂的多阶段方法具有竞争力,并且能够实时运行。