6 个月前

计算机视觉

多任务学习

计算机视觉

Anlin Zheng Yuang Zhang Xiangyu Zhang Xiaojuan Qi Jian Sun

摘要

本文提出了一种新型基于查询（query-based）的人群检测框架。以往基于查询的检测器存在两个主要缺陷：其一，在密集场景中，单个目标往往会产生多个预测结果；其二，随着解码阶段深度的增加，模型性能趋于饱和。得益于一对一标签分配机制的特性，我们提出一种渐进式预测方法，有效缓解上述问题。具体而言，我们首先筛选出更可能产生真正阳性预测的查询，随后根据已确认的预测结果，对剩余的噪声查询进行精细化修正。实验结果表明，所提方法能显著提升基于查询检测器在密集人群场景下的性能表现。在具有挑战性的 CrowdHuman 数据集上，结合本方法的 Sparse RCNN 达到了 92.0% 的 $\text{AP}$ 、41.4% 的 $\text{MR}^{-2}$ 和 83.2% 的 $\text{JI}$ ，优于专为处理密集场景设计的基于边界框的方法 MIP \cite{chu2020detection}。此外，该方法对人群密度具有较强的鲁棒性，在中等和轻度拥挤的数据集（如 CityPersons \cite{zhang2017citypersons} 和 COCO \cite{lin2014microsoft}）上同样实现了稳定且一致的性能提升。代码将公开发布于 https://github.com/megvii-model/Iter-E2EDET。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多任务学习

计算机视觉

Anlin Zheng Yuang Zhang Xiangyu Zhang Xiaojuan Qi Jian Sun

摘要

本文提出了一种新型基于查询（query-based）的人群检测框架。以往基于查询的检测器存在两个主要缺陷：其一，在密集场景中，单个目标往往会产生多个预测结果；其二，随着解码阶段深度的增加，模型性能趋于饱和。得益于一对一标签分配机制的特性，我们提出一种渐进式预测方法，有效缓解上述问题。具体而言，我们首先筛选出更可能产生真正阳性预测的查询，随后根据已确认的预测结果，对剩余的噪声查询进行精细化修正。实验结果表明，所提方法能显著提升基于查询检测器在密集人群场景下的性能表现。在具有挑战性的 CrowdHuman 数据集上，结合本方法的 Sparse RCNN 达到了 92.0% 的 $\text{AP}$ 、41.4% 的 $\text{MR}^{-2}$ 和 83.2% 的 $\text{JI}$ ，优于专为处理密集场景设计的基于边界框的方法 MIP \cite{chu2020detection}。此外，该方法对人群密度具有较强的鲁棒性，在中等和轻度拥挤的数据集（如 CityPersons \cite{zhang2017citypersons} 和 COCO \cite{lin2014microsoft}）上同样实现了稳定且一致的性能提升。代码将公开发布于 https://github.com/megvii-model/Iter-E2EDET。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供