17 天前

拥挤场景中的渐进式端到端目标检测

Anlin Zheng, Yuang Zhang, Xiangyu Zhang, Xiaojuan Qi, Jian Sun
拥挤场景中的渐进式端到端目标检测
摘要

本文提出了一种新型基于查询(query-based)的人群检测框架。以往基于查询的检测器存在两个主要缺陷:其一,在密集场景中,单个目标往往会产生多个预测结果;其二,随着解码阶段深度的增加,模型性能趋于饱和。得益于一对一标签分配机制的特性,我们提出一种渐进式预测方法,有效缓解上述问题。具体而言,我们首先筛选出更可能产生真正阳性预测的查询,随后根据已确认的预测结果,对剩余的噪声查询进行精细化修正。实验结果表明,所提方法能显著提升基于查询检测器在密集人群场景下的性能表现。在具有挑战性的 CrowdHuman 数据集上,结合本方法的 Sparse RCNN 达到了 92.0% 的 $\text{AP}$、41.4\% 的 $\text{MR}^{-2}$ 和 83.2\% 的 $\text{JI}$,优于专为处理密集场景设计的基于边界框的方法 MIP \cite{chu2020detection}。此外,该方法对人群密度具有较强的鲁棒性,在中等和轻度拥挤的数据集(如 CityPersons \cite{zhang2017citypersons} 和 COCO \cite{lin2014microsoft})上同样实现了稳定且一致的性能提升。代码将公开发布于 https://github.com/megvii-model/Iter-E2EDET。