17일 전

AlphaNet: 알파 발산을 통한 슈퍼넷의 개선된 훈련

Dilin Wang, Chengyue Gong, Meng Li, Qiang Liu, Vikas Chandra
AlphaNet: 알파 발산을 통한 슈퍼넷의 개선된 훈련
초록

가중치 공유 신경망 아키텍처 탐색(NAS)은 효율적인 신경망 아키텍처 설계를 자동화하는 데 효과적인 기술이다. 가중치 공유 NAS는 모든 아키텍처를 하위 네트워크로 포함하는 슈퍼넷(supernet)을 구축하고, 슈퍼넷과 하위 네트워크를 함께 훈련한다. 이러한 기법의 성공은 슈퍼넷의 지식을 하위 네트워크로 효과적으로 전달하는 데 크게 의존한다. 그러나 본 연구에서는 일반적으로 사용되는 지식 증류 기법인 KL 발산(KL divergence)이 교사 모델인 슈퍼넷의 불확실성을 과도하게 과대평가하거나 과소평가하게 만들 수 있음을 발견하였다. 이는 하위 네트워크의 성능 저하로 이어진다. 본 연구에서는 더 일반화된 알파-발산(alpha-divergence)을 활용하여 슈퍼넷 훈련을 개선하는 새로운 방법을 제안한다. 알파-발산을 적응적으로 선택함으로써, 교사 모델의 불확실성 과대평가 또는 과소평가를 동시에 방지할 수 있다. 제안한 알파-발산 기반 슈퍼넷 훈련 방법을 슬림가능 신경망(slimmable neural networks)과 가중치 공유 NAS에 적용하여 상당한 성능 향상을 입증하였다. 특히, 본 연구에서 발견한 모델 패밀리인 AlphaNet은 BigNAS, Once-for-All 네트워크, AttentiveNAS 등 다양한 FLOPs 범위에서 기존 최고 성능 모델들을 능가한다. 이미지넷(ImageNet) 상위-1 정확도를 단 444M FLOPs로 80.0%까지 달성하였다. 본 연구의 코드 및 사전 훈련된 모델은 https://github.com/facebookresearch/AlphaNet 에서 공개되어 있다.

AlphaNet: 알파 발산을 통한 슈퍼넷의 개선된 훈련 | 최신 연구 논문 | HyperAI초신경