17 天前
β-DARTS:基于贝塔衰减正则化的可微分架构搜索
Peng Ye, Baopu Li, Yikang Li, Tao Chen, Jiayuan Fan, Wanli Ouyang

摘要
近年来,神经架构搜索(Neural Architecture Search, NAS)因其能够自动设计深度神经网络而受到越来越多的关注。在各类方法中,基于可微分的NAS方法(如DARTS)因其搜索效率高而广受欢迎。然而,这类方法仍面临两个主要问题:对性能崩溃(performance collapse)的鲁棒性较弱,以及所搜索到的网络架构泛化能力较差。为解决上述问题,本文提出一种简单而高效的正则化方法——Beta-Decay,用于对基于DARTS的NAS搜索过程进行约束。具体而言,Beta-Decay正则化能够有效限制激活架构参数的取值及其方差,防止其过大,从而提升搜索过程的稳定性。此外,本文还从理论层面深入分析了该方法的作用机制及其有效性根源。在NAS-Bench-201数据集上的实验结果表明,所提出的方法能够显著稳定搜索过程,并提升所获网络架构在不同数据集间的可迁移性。同时,该搜索方案表现出对训练时长和数据量依赖性较低的优异特性。在多种搜索空间与数据集上的综合实验进一步验证了该方法的有效性与普适性。