2 个月前

SSD:单次多盒检测器

Wei Liu; Dragomir Anguelov; Dumitru Erhan; Christian Szegedy; Scott Reed; Cheng-Yang Fu; Alexander C. Berg
SSD:单次多盒检测器
摘要

我们提出了一种使用单一深度神经网络在图像中检测对象的方法。我们的方法名为SSD(Single Shot MultiBox Detector),将边界框的输出空间离散化为每个特征图位置上的多个默认框,这些默认框具有不同的宽高比和尺度。在预测阶段,网络会生成每个默认框中存在每个对象类别的得分,并对框进行调整以更好地匹配对象形状。此外,该网络结合了具有不同分辨率的多个特征图的预测结果,从而能够自然地处理各种尺寸的对象。与需要对象建议的方法相比,我们的SSD模型相对简单,因为它完全消除了建议生成及后续像素或特征重采样阶段,并将所有计算封装在一个网络中。这使得SSD易于训练,并且可以方便地集成到需要检测组件的系统中。在PASCAL VOC、MS COCO和ILSVRC数据集上的实验结果表明,SSD在准确性上可与其他使用额外对象建议步骤的方法相媲美,同时速度更快,并提供了一个统一的训练和推理框架。与其他单阶段方法相比,即使输入图像尺寸较小,SSD也具有更高的准确性。对于$300 \times 300$输入图像,SSD在Nvidia Titan X上实现了每秒58帧(FPS)的速度,在VOC2007测试集中达到了72.1%的平均精度均值(mAP);而对于$500 \times 500$输入图像,SSD达到了75.1%的mAP,超过了类似的最先进的Faster R-CNN模型。代码可在https://github.com/weiliu89/caffe/tree/ssd 获取。