FBNetV5: 한 번의 실행에서 다중 작업을 위한 신경망 아키텍처 탐색

신경망 아키텍처 탐색(Neural Architecture Search, NAS)은 정확하고 효율적인 이미지 분류 모델을 설계하는 데 널리 채택되어 왔다. 그러나 새로운 컴퓨터 비전 작업에 NAS를 적용하기 위해서는 여전히 막대한 노력이 필요하다. 그 이유는 다음과 같다. 첫째, 기존의 NAS 연구는 이미지 분류 작업에 집중되어 있어 다른 작업들은 거의 무시해왔다. 둘째, 많은 NAS 연구는 특정 작업에 최적화된 구성 요소를 개선하는 데 집중하며, 이러한 구성 요소는 다른 작업으로 쉽게 전이되기 어렵다. 셋째, 기존의 NAS 방법들은 일반적으로 '프록시 없는(proxyless)' 구조를 채택하고 있어, 새로운 작업의 학습 파이프라인과 통합하기 위해 상당한 노력이 필요하다. 이러한 문제를 해결하기 위해, 다양한 비전 작업에 대해 신경망 아키텍처를 탐색할 수 있으며, 계산 비용과 인간의 노력이 크게 줄어든 FBNetV5라는 NAS 프레임워크를 제안한다. 구체적으로, 우리는 1) 간단하면서도 포괄적이고 타 작업으로의 전이가 가능한 탐색 공간을 설계하였으며, 2) 대상 작업의 학습 파이프라인과 분리된 다중 작업 탐색 과정을 개발하였으며, 3) 여러 작업의 아키텍처를 동시에 탐색할 수 있는 알고리즘을 제안하여, 작업 수에 따라 계산 비용이 증가하지 않는 구조를 구현하였다. 제안한 FBNetV5는 이미지 분류, 객체 탐지, 세분할 분석이라는 세 가지 기초적인 비전 작업을 대상으로 평가하였다. FBNetV5가 단일 탐색 실행을 통해 탐색한 모델은 세 가지 작업 모두에서 기존 최고 성능 모델을 능가하였다. 이미지 분류에서는 동일한 FLOPs 조건에서 FBNetV3 대비 +1.3%의 ImageNet Top-1 정확도를 달성하였고, 세분할 분석에서는 SegFormer 대비 3.6배 적은 FLOPs로 ADE20K 검증 mIoU가 +1.8% 향상되었으며, 객체 탐지에서는 YOLOX 대비 1.2배 적은 FLOPs로 COCO 검증 mAP가 +1.1% 향상되었다.