17 天前
iDARTS:基于随机隐式梯度的可微分架构搜索
Miao Zhang, Steven Su, Shirui Pan, Xiaojun Chang, Ehsan Abbasnejad, Reza Haffari

摘要
可微分架构搜索(Differentiable Architecture Search, DARTS)因其高效性与简洁性,近年来已成为神经架构搜索(Neural Architecture Search, NAS)领域的主流方法。DARTS采用基于梯度的双层优化机制,在共享权重的超网络(supernet)框架下,交替优化内层模型权重与外层架构参数。然而,该方法在可扩展性与所学架构质量方面面临一个关键挑战:需对内层优化过程进行求导。尽管已有大量研究探讨DARTS中若干潜在致命因素,但架构梯度(即超梯度,hypergradient)的计算却未受到足够关注。本文基于隐函数定理(implicit function theorem)提出一种新的超梯度计算方法,使得超梯度仅依赖于内层优化问题的最终解,而与具体的优化路径无关,从而提升了计算的稳定性和泛化能力。为进一步降低计算开销,我们进一步提出了适用于可微分NAS的随机超梯度近似方法。理论上,我们证明了所提出的iDARTS方法在架构优化过程中,有望收敛至一个驻点。在两个NAS基准搜索空间以及通用NAS搜索空间上的大量实验验证了所提方法的有效性。结果表明,iDARTS所学习到的神经网络架构在性能上显著优于基线方法,且提升幅度显著。