17일 전

SpineNet: 인식 및 지역화를 위한 스케일 순열 백본 학습

Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V. Le, Xiaodan Song
SpineNet: 인식 및 지역화를 위한 스케일 순열 백본 학습
초록

컨볼루션 신경망은 일반적으로 입력 이미지를 해상도가 점차 감소하는 일련의 중간 특징으로 인코딩한다. 이러한 구조는 분류 작업에 적합하지만, 동시에 객체 인식과 위치 추정이 필요한 작업(예: 객체 탐지)에서는 성능이 저조하다. 이를 해결하기 위해, 분류 작업을 위한 백본 모델에 디코더 네트워크를 적용하는 인코더-디코더 아키텍처가 제안되었다. 본 논문에서는, 해상도 감소 구조를 가진 백본 모델로 인해 인코더-디코더 아키텍처가 강력한 다중 해상도 특징을 생성하는 데 효과적이지 않다고 주장한다. 이에 따라 우리는 신경 구조 탐색(Neural Architecture Search)을 통해 객체 탐지 작업에 맞춰 학습된, 해상도 순서가 교환된 중간 특징과 다중 해상도 간 연결을 갖춘 SpineNet이라는 새로운 백본을 제안한다. 유사한 빌딩 블록을 사용함에도 불구하고, SpineNet 모델은 다양한 해상도에서 ResNet-FPN 모델보다 약 3% 높은 AP(평균 정확도)를 달성하면서도 FLOPs는 10~20% 더 적게 사용한다. 특히 SpineNet-190는 테스트 시 증강 없이 하나의 모델로 COCO 데이터셋에서 Mask R-CNN 탐지기로 52.5% AP, RetinaNet 탐지기로 52.1% AP를 기록하며 기존의 최고 성능 모델들을 크게 상회한다. 또한 SpineNet은 분류 작업에도 전이 가능하며, 도전적인 iNaturalist 미세 분류 데이터셋에서 상위 1위 정확도를 5% 향상시킨다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/tensorflow/tpu/tree/master/models/official/detection.

SpineNet: 인식 및 지역화를 위한 스케일 순열 백본 학습 | 최신 연구 논문 | HyperAI초신경