6 个月前

卷积神经网络

计算机视觉

Peize Sun Rufeng Zhang Yi Jiang Tao Kong Chenfeng Xu Wei Zhan Masayoshi Tomizuka Lei Li Zehuan Yuan Changhu Wang

摘要

我们提出 Sparse R-CNN，一种用于图像目标检测的纯稀疏方法。现有的目标检测方法严重依赖于密集的目标候选框，例如在尺寸为 $H\times W$ 的图像特征图上预定义的 $k$ 个锚框（anchor boxes），形成数量高达数十万的候选区域。而在我们的方法中，仅提供一个固定数量的、可学习的稀疏目标提议（object proposals），总长度为 $N$ ，交由目标识别头完成分类与定位任务。通过将原本需手工设计的 $HWk$ （可达数十万）个密集候选框替换为仅 $N$ （例如 100 个）可学习的稀疏提议，Sparse R-CNN 完全避免了与候选框设计相关的所有工作，以及多对一的标签分配问题。更重要的是，最终的预测结果可直接输出，无需后续的非极大值抑制（non-maximum suppression, NMS）后处理步骤。在具有挑战性的 COCO 数据集上，Sparse R-CNN 在检测精度、运行速度和训练收敛性能方面均达到与主流检测基准相当的水平。例如，在标准的 $3\times$ 训练调度下，其 AP 达到 45.0，同时在使用 ResNet-50 FPN 模型时，推理速度可达 22 fps。我们希望本工作能够激发对目标检测器中“密集先验”范式的重新思考。代码已开源，地址为：https://github.com/PeizeSun/SparseR-CNN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Peize Sun Rufeng Zhang Yi Jiang Tao Kong Chenfeng Xu Wei Zhan Masayoshi Tomizuka Lei Li Zehuan Yuan Changhu Wang

摘要

我们提出 Sparse R-CNN，一种用于图像目标检测的纯稀疏方法。现有的目标检测方法严重依赖于密集的目标候选框，例如在尺寸为 $H\times W$ 的图像特征图上预定义的 $k$ 个锚框（anchor boxes），形成数量高达数十万的候选区域。而在我们的方法中，仅提供一个固定数量的、可学习的稀疏目标提议（object proposals），总长度为 $N$ ，交由目标识别头完成分类与定位任务。通过将原本需手工设计的 $HWk$ （可达数十万）个密集候选框替换为仅 $N$ （例如 100 个）可学习的稀疏提议，Sparse R-CNN 完全避免了与候选框设计相关的所有工作，以及多对一的标签分配问题。更重要的是，最终的预测结果可直接输出，无需后续的非极大值抑制（non-maximum suppression, NMS）后处理步骤。在具有挑战性的 COCO 数据集上，Sparse R-CNN 在检测精度、运行速度和训练收敛性能方面均达到与主流检测基准相当的水平。例如，在标准的 $3\times$ 训练调度下，其 AP 达到 45.0，同时在使用 ResNet-50 FPN 模型时，推理速度可达 22 fps。我们希望本工作能够激发对目标检测器中“密集先验”范式的重新思考。代码已开源，地址为：https://github.com/PeizeSun/SparseR-CNN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供