17일 전

DrNAS: 디리클레 신경망 아키텍처 검색

Xiangning Chen, Ruochen Wang, Minhao Cheng, Xiaocheng Tang, Cho-Jui Hsieh
DrNAS: 디리클레 신경망 아키텍처 검색
초록

이 논문은 아키텍처 탐색을 분포 학습 문제로 재정의함으로써, 새로운 미분 가능한 아키텍처 탐색 방법을 제안한다. 우리는 연속적으로 완화된 아키텍처 혼합 가중치를 확률 변수로 간주하고, 디리클레 분포(Dirichlet distribution)로 모델링한다. 최근 개발된 경로 기반 미분(pathwise derivatives) 기법을 활용하면, 디리클레 분포의 매개변수를 종단 간(end-to-end) 방식으로 기울기 기반 최적화 기법을 통해 간편하게 최적화할 수 있다. 이 공식화는 일반화 능력을 향상시키며, 탐색 공간 내에서 탐색을 자연스럽게 유도하는 확률적 특성을 유도한다. 또한, 미분 가능한 NAS에서 발생하는 큰 메모리 소비 문제를 완화하기 위해, 대규모 작업에서 직접 탐색이 가능하도록 하는 간단하면서도 효과적인 점진적 학습 방식을 제안한다. 이로써 탐색 단계와 평가 단계 사이의 격차를 제거할 수 있다. 광범위한 실험을 통해 제안된 방법의 효과성을 입증하였다. 구체적으로, 모바일 설정 하에서 CIFAR-10에 대해 2.46%의 테스트 오차를 달성하였으며, ImageNet에서는 23.7%의 오차를 기록하였다. NAS-Bench-201에서 모든 세 가지 데이터셋에 대해 최신 기술(SOTA) 수준의 성능을 달성하였으며, 신경망 아키텍처 탐색 알고리즘의 효과적인 설계를 위한 통찰을 제공한다.