6 个月前

摘要

我们提出了一种简单而有效的基于提议（proposal-based）的物体检测器，旨在检测密集场景中高度重叠的物体实例。本方法的核心思想是：让每个提议（proposal）预测一组相关联的物体实例，而非传统基于提议的框架中仅预测单一实例。通过引入EMD损失（EMD Loss）和集合非极大值抑制（Set NMS）等新策略，我们的检测器能够有效应对高度重叠物体检测的挑战。在FPN-Res50基线模型上，该方法在具有挑战性的CrowdHuman数据集上实现了4.9%的AP提升，在CityPersons数据集上实现了1.0%的 $\text{MR}^{-2}$ 性能改进，且无需任何额外的复杂技巧（bells and whistles）。此外，在相对稀疏的COCO等数据集上，该方法仍能取得可观的性能提升，表明所提出方法对场景拥挤程度具有良好的鲁棒性。代码与预训练模型将开源发布于：https://github.com/megvii-model/CrowdDetection。