블록 단위로 감독되는 지식 증류를 활용한 신경망 아키텍처 탐색

신경망 아키텍처 탐색(Neural Architecture Search, NAS)은 기계가 자동으로 네트워크 아키텍처를 설계하는 것을 목표로 하며, 머신러닝 분야에 새로운 혁신을 가져올 것으로 기대되고 있다. 그러나 이러한 높은 기대에도 불구하고 기존 NAS 솔루션의 효과성과 효율성은 명확하지 않으며, 최근 연구들 중 일부는 기존 많은 NAS 솔루션이 무작위 아키텍처 선택과 별 차이가 없다고 지적하기까지 한다. NAS 솔루션의 비효율성은 아키텍처 평가의 부정확성에 기인할 수 있다. 구체적으로, NAS 속도를 높이기 위해 최근 연구들은 큰 탐색 공간 내에서 다양한 후보 아키텍처들을 공유된 네트워크 파라미터를 사용해 동시에 부분적으로만 훈련하는 방식을 제안하였으나, 이로 인해 아키텍처 평가가 잘못되며 NAS의 효과성이 더욱 저하되는 결과를 초래하였다.본 연구에서는 NAS의 큰 탐색 공간을 블록 단위로 모듈화함으로써 후보 아키텍처들이 충분히 훈련되도록 보장하고, 공유 파라미터로 인한 표현 변이(Representation Shift)를 줄이며 후보 아키텍처에 대한 정확한 평가를 가능하게 한다. 블록 단위 탐색 덕분에 블록 내 모든 후보 아키텍처를 평가할 수 있으며, 네트워크 모델의 지식은 단순히 파라미터에만 국한되지 않고 아키텍처 구조 자체에도 존재한다는 점을 발견하였다. 따라서 본 연구는 교사 모델(teacher model)로부터 신경망 아키텍처(DNA) 지식을 추출하여 블록 단위 아키텍처 탐색을 안내하는 지도 신호로 활용하는 방법을 제안한다. 이는 NAS의 효과성을 크게 향상시킨다. 특히, 탐색된 아키텍처의 성능이 교사 모델을 초월함으로써 제안한 방법의 실용성과 확장 가능성을 입증하였다. 마지막으로, 본 방법은 모바일 환경에서 ImageNet 데이터셋에서 78.4%의 Top-1 정확도를 달성하여, EfficientNet-B0 대비 약 2.1%의 성능 향상을 보였다. 본 연구에서 탐색된 모든 모델과 평가 코드는 공개되어 있다.