2 个月前

sharpDARTS:更快更准确的可微架构搜索

Andrew Hundt; Varun Jain; Gregory D. Hager
sharpDARTS:更快更准确的可微架构搜索
摘要

神经架构搜索(Neural Architecture Search, NAS)在神经网络设计方面带来了显著的改进,最近的研究结果已经达到了或超过了手工调优架构的性能。然而,我们对如何表示神经网络架构的搜索空间以及如何高效地搜索该空间的理解仍处于初级阶段。我们进行了深入分析,识别出广泛使用的搜索空间和近期提出的可微分架构搜索方法(Differentiable Architecture Search, DARTS)中的局限性。这些发现促使我们引入了具有更通用、平衡和一致设计的新网络块;优化了余弦幂退火学习率调度(Cosine Power Annealing learning rate schedule);以及其他改进措施。我们的改进后的sharpDARTS搜索方法比DARTS快50%,并且在CIFAR-10数据集上最终模型误差相对提高了20-30%。我们最佳的单次模型运行在CIFAR-10验证集上的误差为1.93%(1.98±0.07),在最近发布的CIFAR-10.1测试集上的误差为5.5%(5.8±0.3)。据我们所知,这两个结果都是类似规模模型中的最新水平。该模型在ImageNet数据集上的表现也非常有竞争力,其top-1错误率为25.1%,top-5错误率为7.8%。我们在现有的搜索空间中发现了改进,但DARTS是否能推广到新的领域?为此,我们提出了可微分超参数网格搜索(Differentiable Hyperparameter Grid Search)和超立方体搜索空间(HyperCuboid search space),这两种表示方法旨在利用DARTS进行更广泛的参数优化。然而,我们发现DARTS在与人类一次性选择的模型相比时无法实现泛化。为了理解这一现象,我们回顾了DARTS和sharpDARTS的搜索空间,并通过消融研究揭示了一个异常的泛化差距。最后,我们提出了Max-W正则化方法来解决这一问题,该方法显著优于手工设计的方法。代码将公开发布。