9 个月前

摘要

我们介绍了SNIPER，一种在实例级视觉识别任务中进行高效多尺度训练的算法。SNIPER不是处理图像金字塔中的每个像素，而是以适当的尺度处理围绕真实实例（称为芯片）的上下文区域。对于背景采样，这些上下文区域是通过从经过短期学习计划训练的区域提议网络中提取的提议生成的。因此，在训练过程中每张图像生成的芯片数量会根据场景复杂度自适应变化。在COCO数据集上，与常用的单尺度800x1333像素训练相比，SNIPER仅需处理约30%更多的像素。然而，它还能观察到图像金字塔中极端分辨率的样本，例如1400x2000像素。由于SNIPER在重采样的低分辨率芯片（512x512像素）上运行，即使使用ResNet-101骨干网络，也能在一个GPU上实现高达20的批大小。因此，它可以在训练过程中利用批归一化的好处，而无需跨多个GPU同步批归一化统计信息。SNIPER将实例级识别任务（如目标检测）的训练方法更接近于图像分类的标准协议，并暗示了通常认为在高分辨率图像上进行训练对实例级视觉识别任务至关重要的观点可能并不正确。基于Faster-RCNN并使用ResNet-101骨干网络的我们的实现，在COCO数据集上的边界框检测mAP达到了47.6%，并且在推理阶段可以使用单个GPU每秒处理5张图像。代码可在https://github.com/MahyarNajibi/SNIPER/ 获取。

源 PDF