ScaleNAS: 시각 인식을 위한 스케일 인지 표현의 원샷 학습

신체 부위 및 객체의 크기 간 스케일 변동성은 시각 인식 작업에 있어 도전적인 문제이다. 기존의 연구들은 이 문제를 해결하기 위해 각 작업에 맞게 전용 백본을 설계하거나 신경망 아키텍처 탐색(Neural Architecture Search, NAS)을 적용하는 방식을 사용한다. 그러나 기존 방법들은 설계 또는 탐색 공간에 상당한 제약을 가한다. 이러한 문제를 해결하기 위해 우리는 스케일 인지 표현을 탐색하기 위한 원샷 학습(one-shot learning) 기법인 ScaleNAS를 제안한다. ScaleNAS는 다중 스케일 특징 집약(multi-scale feature aggregation)을 탐색함으로써 동시에 여러 작업을 해결한다. ScaleNAS는 임의의 수의 블록과 크로스 스케일 특징 융합을 허용하는 유연한 탐색 공간을 채택한다. 유연한 탐색 공간으로 인해 발생하는 높은 탐색 비용을 해결하기 위해 ScaleNAS는 그룹 샘플링(grouped sampling)과 진화 탐색(evolutionary search)을 기반으로 한 다중 스케일 슈퍼넷(supernet)을 활용한 원샷 학습 기법을 적용한다. 추가 재학습 없이도 ScaleNet은 다양한 시각 인식 작업에 직접 적용 가능하며 뛰어난 성능을 보인다. ScaleNAS를 활용해 두 가지 다른 작업에 적합한 고해상도 모델인 ScaleNet-P(인간 자세 추정용)와 ScaleNet-S(세그멘테이션용)를 구축하였다. ScaleNet-P와 ScaleNet-S는 모두 기존의 수작업 설계 모델 및 NAS 기반 모델보다 우수한 성능을 기록하였다. 하향식(bottom-up) 인간 자세 추정에 ScaleNet-P를 적용한 결과, 최신 기술인 HigherHRNet을 뛰어넘었으며, 특히 ScaleNet-P4는 COCO test-dev에서 71.6%의 AP를 기록하여 새로운 최고 성능을 달성하였다.