
기존의 딥 컨볼루션 신경망(CNN)은 고정된 크기(예: 224x224)의 입력 이미지를 요구합니다. 이러한 요구는 "인위적"이며 임의의 크기/스케일의 이미지나 부분 이미지에 대한 인식 정확도를 저하시킬 수 있습니다. 본 연구에서는 이러한 요구를 제거하기 위해 "스페이셜 피라미드 풀링(spatial pyramid pooling)"이라는 추가적인 풀링 전략을 네트워크에 도입합니다. 이 새로운 네트워크 구조를 SPP-net이라고 하며, 이미지 크기/스케일과 관계없이 고정된 길이의 표현을 생성할 수 있습니다. 피라미드 풀링은 또한 객체 변형에 대해 강건한 특성을 가지고 있습니다. 이러한 장점들로 인해 SPP-net은 일반적으로 모든 CNN 기반 이미지 분류 방법들을 개선할 것입니다.ImageNet 2012 데이터셋에서 우리는 SPP-net이 다양한 CNN 아키텍처들의 정확도를 개선함을 보여주었습니다. 이는 서로 다른 설계에도 불구하고 이루어졌습니다. Pascal VOC 2007 및 Caltech101 데이터셋에서는 단일 전체 이미지 표현을 사용하고 미세 조정(fine-tuning) 없이 SPP-net이 최고 수준의 분류 결과를 달성하였습니다.SPP-net의 성능은 객체 검출에서도 상당히 중요합니다. SPP-net을 사용하면, 전체 이미지로부터 한 번만 특징 맵(feature map)을 계산하고, 이후 임의의 영역(부분 이미지)에서 특징을 풀링하여 검출기 학습용 고정된 길이 표현을 생성할 수 있습니다. 이 방법은 컨볼루션 특징을 반복적으로 계산하는 것을 피할 수 있습니다. 테스트 이미지를 처리할 때, 우리의 방법은 R-CNN 방법보다 24-102배 더 빠르면서 Pascal VOC 2007에서 더 나은 또는 유사한 정확도를 달성하였습니다.ImageNet 대규모 시각 인식 챌린지(ILSVRC) 2014에서 우리의 방법들은 총 38개 팀 중 객체 검출 부문에서 2위, 이미지 분류 부문에서 3위를 차지하였습니다. 본 논문에서는 이 경쟁을 위해 이루어진 개선 사항도 소개합니다.