
摘要
在神经架构搜索(Neural Architecture Search, NAS)领域,可微分架构搜索(Differentiable Architecture Search, DARTS)因其高效性近年来受到广泛关注。该方法通过引入一个超参数化网络,其中每个边代表所有候选操作的混合,采用交替优化的方式联合学习网络权重与架构参数。然而,该方法倾向于找到权重收敛速度最快的模型,而这类收敛最快的模型往往容易出现过拟合现象,导致最终模型的泛化性能不佳。为解决这一问题,本文提出一种名为最小稳定秩可微分架构搜索(Minimum Stable Rank DARTS, MSR-DARTS)的新方法,通过引入最小稳定秩准则替代原有的架构优化过程,以筛选出具有最优泛化误差的模型。具体而言,将卷积操作建模为矩阵形式,MSR-DARTS 选择其中稳定秩最小的卷积操作作为最优候选。我们在 CIFAR-10 和 ImageNet 数据集上对 MSR-DARTS 进行了评估:在 CIFAR-10 上,该方法仅需 0.3 GPU 天即可实现 2.54% 的误差率,且模型参数量仅为 4.0M;在 ImageNet 上,其 top-1 误差率为 23.9%。相关官方代码已开源,地址为:https://github.com/mtaecchhi/msrdarts.git。