
摘要
现有的深度卷积神经网络(CNNs)需要固定大小(例如,224x224)的输入图像。这一要求是“人为”的,可能会降低对任意大小/尺度的图像或子图像的识别准确性。在本研究中,我们为网络引入了一种新的池化策略——“空间金字塔池化”,以消除上述要求。这种新的网络结构被称为SPP-net,无论图像的大小/尺度如何,都能生成固定长度的表示。金字塔池化对物体变形也具有较强的鲁棒性。凭借这些优势,SPP-net通常可以改进所有基于CNN的图像分类方法。在ImageNet 2012数据集上,我们证明了SPP-net能够提高各种不同设计的CNN架构的准确性。在Pascal VOC 2007和Caltech101数据集上,使用单一全图表示且无需微调的情况下,SPP-net达到了最先进的分类结果。SPP-net在目标检测方面同样表现出强大的能力。利用SPP-net,我们只需从整幅图像计算一次特征图,然后在任意区域(子图像)内池化特征以生成用于训练检测器的固定长度表示。这种方法避免了重复计算卷积特征。在处理测试图像时,我们的方法比R-CNN方法快24至102倍,同时在Pascal VOC 2007上实现了更好的或相当的准确性。在2014年ImageNet大规模视觉识别挑战赛(ILSVRC 2014)中,我们的方法在38支参赛队伍中目标检测排名第二,在图像分类中排名第三。本文还介绍了为该竞赛所作的改进。