11 天前

稀疏R-CNN:基于可学习提议的端到端目标检测

Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo
稀疏R-CNN:基于可学习提议的端到端目标检测
摘要

我们提出 Sparse R-CNN,一种用于图像目标检测的纯稀疏方法。现有的目标检测方法严重依赖于密集的目标候选框,例如在尺寸为 $H\times W$ 的图像特征图上预定义的 $k$ 个锚框(anchor boxes),形成数量高达数十万的候选区域。而在我们的方法中,仅提供一个固定数量的、可学习的稀疏目标提议(object proposals),总长度为 $N$,交由目标识别头完成分类与定位任务。通过将原本需手工设计的 $HWk$(可达数十万)个密集候选框替换为仅 $N$(例如 100 个)可学习的稀疏提议,Sparse R-CNN 完全避免了与候选框设计相关的所有工作,以及多对一的标签分配问题。更重要的是,最终的预测结果可直接输出,无需后续的非极大值抑制(non-maximum suppression, NMS)后处理步骤。在具有挑战性的 COCO 数据集上,Sparse R-CNN 在检测精度、运行速度和训练收敛性能方面均达到与主流检测基准相当的水平。例如,在标准的 $3\times$ 训练调度下,其 AP 达到 45.0,同时在使用 ResNet-50 FPN 模型时,推理速度可达 22 fps。我们希望本工作能够激发对目标检测器中“密集先验”范式的重新思考。代码已开源,地址为:https://github.com/PeizeSun/SparseR-CNN。

稀疏R-CNN:基于可学习提议的端到端目标检测 | 最新论文 | HyperAI超神经