
신경망 구조 탐색(Neural Architecture Search, NAS)은 신경망 설계에서 극적인 개선의 원천이 되어 왔으며, 최근 연구 결과들은 수작업으로 조정된 구조와 동등하거나 그 이상의 성능을 달성하였습니다. 그러나, 신경망 구조의 탐색 공간을 표현하고 이를 효율적으로 탐색하는 방법에 대한 이해는 아직 초기 단계에 머물러 있습니다.우리는 널리 사용되는 탐색 공간과 최근의 신경망 구조 탐색 방법인 미분 가능한 구조 탐색(Differentiable Architecture Search, DARTS)에 대한 제한점을 식별하기 위해 깊이 있는 분석을 수행했습니다. 이러한 발견들을 바탕으로 보다 일반적이고 균형적이며 일관된 설계를 가진 새로운 네트워크 블록; 더 최적화된 코사인 파워 앤니링(Cosine Power Annealing) 학습률 스케줄;以及其他改进措施被引入。我们提出的sharpDARTS搜索比DARTS快50%,在CIFAR-10上的最终模型错误率相对降低了20-30%。我们最佳的单个模型运行在CIFAR-10上的验证错误率为1.93%(1.98±0.07),在最近发布的CIFAR-10.1测试集上的错误率为5.5%(5.8±0.3)。据我们所知,这两个结果都是类似规模模型中的最新水平。该模型在ImageNet上也具有竞争力,其top-1错误率为25.1%(top-5错误率为7.8%)。我们在现有的搜索空间中发现了改进,但DARTS是否可以推广到新的领域?为此,我们提出了可微分超参数网格搜索(Differentiable Hyperparameter Grid Search)和HyperCuboid搜索空间,这些表示方法旨在利用DARTS进行更广泛的参数优化。在这里,我们发现与人类一次性选择的模型相比,DARTS无法推广。为了理解原因,我们回顾了DARTS和sharpDARTS的搜索空间,并通过消融研究揭示了一个异常的泛化差距。最后,我们提出了Max-W正则化(Max-W Regularization)来解决这个问题,证明其显著优于手工设计的方法。代码将会公开。注:最后一段中有一处翻译需要特别注意,“Max-W regularization”是一个专有名词,在韩文中应保持原样或使用通用译法“최대 W 정규화”。以下是修正后的版本:우리는 기존의 탐색 공간에서 개선점을 발견했지만, DARTS가 새로운 영역으로 일반화될 수 있을까요? 이를 위해 우리는 더 일반적인 매개변수 최적화를 위해 DARTS를 활용하도록 설계된 미분 가능한 하이퍼파라미터 그리드 탐색(Differentiable Hyperparameter Grid Search)과 HyperCuboid 탐색 공간을 제안합니다. 여기서 우리는 인간이 한 번에 선택한 모델과 비교할 때 DARTS가 일반화되지 않는다는 것을 발견했습니다. 이 문제를 이해하기 위해 우리는 DARTS와 sharpDARTS의 탐색 공간을 다시 살펴보았고, 소거 연구(ablation study)를 통해 특이한 일반화 간극(generalization gap)을 밝혔습니다. 마지막으로, 우리는 이 문제를 해결하기 위해 최대 W 정규화(Max-W Regularization)를 제안하며, 이는 수작업 설계보다 훨씬 우수함을 입증하였습니다. 코드는 공개될 예정입니다.