
초록
스케일 순열 네트워크는 물체 경계 상자 탐지 및 인스턴스 세그멘테이션에서 희망적인 성과를 보여주었다. 스케일 순열과 크로스 스케일 특성 병합 기법은 네트워크가 다중 스케일의 의미 정보를 포착하면서도 공간 해상도를 유지할 수 있도록 한다. 본 연구에서는 이 메타 아키텍처 설계를 정의 세그멘테이션(semantic segmentation) — 고해상도와 다양한 네트워크 단계에서의 다중 스케일 특성 병합이 유리한 또 다른 비전 작업 — 에 적용하여 평가한다. 더불어 확장된 컨볼루션(다이레이티드 컨볼루션) 연산을 활용함으로써, DeepLabv3 시스템에서 탐색된 네트워크인 SpineNet-Seg을 제안한다. SpineNet-Seg는 정의 세그멘테이션 작업을 위해 각 블록별 맞춤형 확장 비율을 가진 보다 우수한 스케일 순열 네트워크 구조로 설계되었다. SpineNet-Seg 모델은 다양한 인기 있는 벤치마크에서 다양한 모델 규모에서 DeepLabv3/v3+ 기준 모델보다 속도와 정확도 측면에서 모두 우수한 성능을 보였다. 특히, SpineNet-S143+ 모델은 인기 있는 Cityscapes 벤치마크에서 83.04%의 mIoU를 기록하여 새로운 최고 성능을 달성하였으며, PASCAL VOC2012 벤치마크에서도 85.56%의 mIoU로 강력한 성능을 보였다. 또한 SpineNet-Seg 모델은 도전적인 Street View 세그멘테이션 데이터셋에서도 유망한 성과를 보였다. 코드와 체크포인트는 공개될 예정이다.