
극단적인 크기 변화 하에서 객체 인식 및 검출을 위한 다양한 기술의 분석이 제시됩니다. 크기에 따라 다른 입력 데이터 구성으로 학습된 감지기의 설계를 비교하여 크기 특이적(scale specific)과 크기 불변성(scale invariant) 설계를 대비합니다. ImageNet에서 작은 객체를 분류하기 위한 다양한 네트워크 아키텍처의 성능을 평가함으로써 CNNs가 크기 변화에 대해 견고하지 않다는 것을 보여줍니다. 이 분석을 바탕으로, 우리는 이미지 피라미드(image-pyramid)의 동일한 스케일에서 감지기를 학습하고 테스트하는 방법을 제안합니다. 작은 객체는 작은 스케일에서, 큰 객체는 큰 스케일에서 인식하기 어려우므로, 우리는 이미지 피라미드용 스케일 정규화(Scale Normalization for Image Pyramids, SNIP)라는 새로운 학습 방식을 제시합니다. 이 방식은 이미지 스케일에 따라 다른 크기의 객체 인스턴스의 그래디언트를 선택적으로 역전파(back-propagates)합니다. COCO 데이터셋에서 우리의 단일 모델 성능은 45.7%이며, 3개 네트워크 앙상블은 mAP(평균 정밀도) 48.3%를 얻었습니다. 우리는 사전 학습된 ImageNet-1000 모델을 사용하고, 오직 바운딩 박스(bounding box) 감독만으로 학습하였습니다. 우리의 제출물은 COCO 2017 챌린지에서 최우수 학생 입상을 받았습니다. 코드는 \url{http://bit.ly/2yXVg4c}에서 제공될 예정입니다.