SpineNet: 인식 및 지역화를 위한 스케일 순열 백본 학습

컨볼루션 신경망은 일반적으로 입력 이미지를 해상도가 점차 감소하는 일련의 중간 특징으로 인코딩한다. 이러한 구조는 분류 작업에 적합하지만, 동시에 객체 인식과 위치 추정이 필요한 작업(예: 객체 탐지)에서는 성능이 저조하다. 이를 해결하기 위해, 분류 작업을 위한 백본 모델에 디코더 네트워크를 적용하는 인코더-디코더 아키텍처가 제안되었다. 본 논문에서는, 해상도 감소 구조를 가진 백본 모델로 인해 인코더-디코더 아키텍처가 강력한 다중 해상도 특징을 생성하는 데 효과적이지 않다고 주장한다. 이에 따라 우리는 신경 구조 탐색(Neural Architecture Search)을 통해 객체 탐지 작업에 맞춰 학습된, 해상도 순서가 교환된 중간 특징과 다중 해상도 간 연결을 갖춘 SpineNet이라는 새로운 백본을 제안한다. 유사한 빌딩 블록을 사용함에도 불구하고, SpineNet 모델은 다양한 해상도에서 ResNet-FPN 모델보다 약 3% 높은 AP(평균 정확도)를 달성하면서도 FLOPs는 10~20% 더 적게 사용한다. 특히 SpineNet-190는 테스트 시 증강 없이 하나의 모델로 COCO 데이터셋에서 Mask R-CNN 탐지기로 52.5% AP, RetinaNet 탐지기로 52.1% AP를 기록하며 기존의 최고 성능 모델들을 크게 상회한다. 또한 SpineNet은 분류 작업에도 전이 가능하며, 도전적인 iNaturalist 미세 분류 데이터셋에서 상위 1위 정확도를 5% 향상시킨다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/tensorflow/tpu/tree/master/models/official/detection.