전송 가능한 아키텍처를 학습하여 확장 가능한 이미지 인식 실현

신경망 이미지 분류 모델의 개발은 종종 중요한 구조 공학을 필요로 합니다. 본 논문에서는 관심 있는 데이터셋에서 직접 모델 구조를 학습하는 방법을 연구합니다. 이 접근 방식이 큰 데이터셋에서는 비용이 많이 들기 때문에, 우리는 작은 데이터셋에서 구조적 빌딩 블록을 검색한 후 이를 더 큰 데이터셋으로 전송하는 방법을 제안합니다. 본 연구의 주요 기여는 전송 가능성을 가능하게 하는 새로운 검색 공간(“NASNet 검색 공간”) 설계입니다. 실험에서는 CIFAR-10 데이터셋에서 최상의 컨볼루션 계층(또는 “셀”)을 검색한 후, 이 셀을 각각 고유한 매개변수를 가진 여러 복사본으로 쌓아서 ImageNet 데이터셋에 적용하여 컨볼루션 아키텍처인 “NASNet 아키텍처”를 설계하였습니다. 또한, 일반화 성능을 크게 향상시키는 새로운 정규화 기술인 ScheduledDropPath를 소개합니다. CIFAR-10 자체에서 NASNet은 2.4% 오류율을 달성하여 최고 수준의 성능을 보였습니다. ImageNet에서는 NASNet이 기존 연구 결과 중 82.7%의 top-1 정확도와 96.2%의 top-5 정확도를 달성하였습니다. 우리의 모델은 가장 우수한 인간 설계 아키텍처보다 top-1 정확도에서 1.2% 우수하며, 이전 최고 수준 모델보다 연산량이 90억 FLOPS 적어 28% 감소하였습니다. 연산 비용이 다른 수준에서 평가될 때, NASNet의 정확도는 최고 수준의 인간 설계 모델보다 뛰어납니다. 예를 들어, 소형 NASNet 버전은 모바일 플랫폼용 동일 크기의 최고 수준 모델보다 3.1% 우수한 74%의 top-1 정확도를 달성하였습니다. 마지막으로, NASNet이 학습한 특징들은 Faster-RCNN 프레임워크와 함께 사용할 때 COCO 데이터셋에서 43.1% mAP로 최고 수준보다 4.0% 높은 성능을 보였습니다.