2달 전

신경망 구조 최적화

Renqian Luo; Fei Tian; Tao Qin; Enhong Chen; Tie-Yan Liu

초록

자동 신경망 구조 설계는 강력한 신경망 구조를 발견하는 데 그 잠재력을 보여주었습니다. 기존 방법들은 강화 학습 또는 진화 알고리즘(EA)을 기반으로 하더라도, 이산 공간에서 구조 검색을 수행하여 매우 비효율적입니다. 본 논문에서는 연속 최적화를 기반으로 한 간단하고 효율적인 자동 신경망 구조 설계 방법을 제안합니다. 우리는 이 새로운 접근 방식을 신경망 구조 최적화(NAO)라고 부릅니다. 제안된 접근 방식에는 세 가지 주요 구성 요소가 있습니다: (1) 인코더는 신경망 구조를 연속 공간에 임베딩/매핑합니다. (2) 예측기는 네트워크의 연속 표현을 입력으로 받아 정확도를 예측합니다. (3) 디코더는 네트워크의 연속 표현을 다시 해당 구조로 매핑합니다. 성능 예측기와 인코더는 연속 공간에서 그래디언트 기반 최적화를 수행하여 잠재적으로 더 나은 정확도를 가진 새로운 구조의 임베딩을 찾는 것을 가능하게 합니다. 이러한 더 나은 임베딩은 이후 디코더에 의해 네트워크로 디코딩됩니다. 실험 결과, CIFAR-10 이미지 분류 작업과 PTB 언어 모델링 작업에서 우리 방법으로 발견된 구조가 이전 구조 검색 방법들의 최고 결과보다 우수하거나 비슷한 성능을 보임과 동시에 계산 리소스를大幅减少。为了具体说明，我们在CIFAR-10图像分类任务中获得了1.93%的测试集错误率，在PTB语言建模任务中获得了56.0的测试集困惑度。此外，结合最近提出的权重共享机制，我们以非常有限的计算资源（不到10个GPU小时）在这两个任务上发现了强大的架构：在CIFAR-10上的错误率为2.93%，在PTB上的测试集困惑度为56.6。为了确保表述正式且符合韩语表达习惯，以下是修正后的翻译：실험 결과, CIFAR-10 이미지 분류 작업과 PTB 언어 모델링 작업에서 우리 방법으로 발견된 구조가 이전 구조 검색 방법들의 최고 결과보다 우수하거나 유사한 성능을 보였으며, 계산 리소스를 크게 절약하였습니다. 특히, CIFAR-10 이미지 분류 작업에서는 1.93%의 테스트 세트 오류율을, PTB 언어 모델링 작업에서는 56.0의 테스트 세트 퍼플렉서티(perplexity)를 달성하였습니다. 또한 최근 제안된 가중치 공유 메커니즘과 결합하여, 두 작업 모두 매우 제한적인 계산 리소스(10시간 미만의 GPU 시간)로 강력한 구조를 발견하였습니다: CIFAR-10에서는 오류율이 2.93%, PTB에서는 테스트 세트 퍼플렉서티가 56.6인 구조입니다.