
摘要
最先进的目标检测网络依赖于区域提议算法来假设目标位置。诸如SPPnet和Fast R-CNN等进展已经减少了这些检测网络的运行时间,但区域提议计算仍是一个瓶颈。在本研究中,我们引入了一种区域提议网络(Region Proposal Network, RPN),该网络与检测网络共享全图像卷积特征,从而实现了几乎无成本的区域提议。RPN是一种完全卷积网络,能够在每个位置同时预测目标边界和目标性得分。RPN经过端到端训练以生成高质量的区域提议,这些提议随后被Fast R-CNN用于检测。通过共享它们的卷积特征,我们将RPN和Fast R-CNN进一步合并为一个单一网络——借用最近流行的具有“注意力”机制的神经网络术语,RPN组件告诉统一网络应该关注哪里。对于非常深的VGG-16模型,我们的检测系统在GPU上可以达到每秒5帧的速度(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上仅使用每张图像300个提议就达到了当前最佳的目标检测精度。在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多个赛道冠军作品的基础。代码已公开发布。