17일 전

이미지넷에서 4개의 GPU 시간 내에 수행되는 신경망 아키텍처 탐색: 이론적으로 영감을 받은 관점

Wuyang Chen, Xinyu Gong, Zhangyang Wang
이미지넷에서 4개의 GPU 시간 내에 수행되는 신경망 아키텍처 탐색: 이론적으로 영감을 받은 관점
초록

신경망 아키텍처 탐색(Neural Architecture Search, NAS)은 최고 성능을 발휘하는 신경망을 자동으로 발견하기 위해 폭발적으로 연구되고 있다. 그러나 기존의 방법들은 대규모의 슈퍼넷 학습이나 집중적인 아키텍처 평가를 필요로 하며, 이로 인해 막대한 자원 소모가 발생하고, 학습을 단절하거나 근사화함으로써 탐색 편향이 생기는 문제가 있다. 학습 과정을 전혀 포함하지 않고도 최적의 신경망 아키텍처를 선정할 수 있을까? 또한 탐색 비용의 극대적 절감이 가능할까? 본 연구는 이를 긍정적으로 답변하며, 학습이 없는 신경망 아키텍처 탐색(Training-Free Neural Architecture Search, TE-NAS)이라는 새로운 프레임워크를 제안한다. TE-NAS는 신경 탄성 커널(Neural Tangent Kernel, NTK)의 스펙트럼과 입력 공간 내 선형 영역의 수를 분석함으로써 아키텍처를 순위 매긴다. 이 두 가지 측정치는 최근 깊은 신경망 이론의 발전에서 영감을 얻었으며, 학습 과정이나 레이블 정보 없이도 계산 가능하다. 본 연구에서는 다음과 같은 사실을 입증한다: (1) 이 두 가지 지표는 신경망의 학습 가능성과 표현력과 밀접한 관련이 있으며; (2) 이는 네트워크의 테스트 정확도와 강한 상관관계를 보인다. 또한, 탐색 과정에서 학습 가능성과 표현력 사이의 더 유연하고 우수한 균형을 달성하기 위해 절단 기반(NAS) 기법을 설계하였다. NAS-Bench-201 및 DARTS 탐색 공간에서 TE-NAS는 높은 품질의 탐색을 완료하였으며, CIFAR-10과 ImageNet에서 각각 1개의 1080Ti GPU를 사용해 0.5시간과 4시간의 GPU 시간만 소요하였다. 본 연구가 깊은 신경망 이론의 발견과 실제 NAS 응용 간의 연결을 더욱 촉진하는 계기가 되기를 기대한다. 코드는 다음 링크에서 제공된다: https://github.com/VITA-Group/TENAS.