조합된 기법들이 합성된 컨볼루션 신경망에서 성능 향상의 복합 효과

최근 이미지 분류 분야의 연구들은 합성곱 신경망(Convolutional Neural Networks, CNNs)의 성능을 향상시키기 위한 다양한 기술들을 제시해왔다. 그러나 기존 기술들을 조합하여 실용적인 모델을 구축하려는 시도는 여전히 드물다. 본 연구에서는 기존 기술들을 철저히 정리하고, 이를 기본 CNN 모델(예: ResNet 및 MobileNet)에 적용함으로써 정확도와 강건성은 향상시키면서도 처리량(throughput)의 손실을 최소화할 수 있음을 광범위한 실험을 통해 검증한다. 제안하는 조합형 ResNet-50은 ILSVRC2012 검증 세트에서 top-1 정확도를 76.3%에서 82.78%로, mCE(misclassification error)를 76.0%에서 48.9%로, mFR(mean false rejection rate)를 57.7%에서 32.3%로 개선하였다. 이러한 성능 향상에도 불구하고 추론 처리량은 536에서 312로 단지 약 42% 감소에 그쳤다. 전이 학습(transfer learning), 세부 분류(fine-grained classification), 이미지 검색(image retrieval) 등의 다양한 작업에서 공개 데이터셋을 활용한 실험을 통해, 기반 네트워크 성능의 향상이 전이 학습 성능을 크게 개선함을 확인하였다. 본 연구의 접근 방식은 CVPR 2019 iFood 경진대회 세부 시각 인식(Fine-Grained Visual Recognition) 부문에서 1위를 차지하였으며, 소스 코드와 학습된 모델은 https://github.com/clovaai/assembled-cnn 에서 공개되어 있다.