17 天前
DrNAS:狄利克雷神经架构搜索
Xiangning Chen, Ruochen Wang, Minhao Cheng, Xiaocheng Tang, Cho-Jui Hsieh

摘要
本文提出了一种新颖的可微分架构搜索方法,将该问题建模为分布学习问题。我们将连续松弛后的架构混合权重视为随机变量,并采用狄利克雷(Dirichlet)分布进行建模。借助近期发展的路径导数(pathwise derivatives)技术,Dirichlet分布的参数可借助基于梯度的优化器实现端到端的高效优化。该建模范式不仅提升了模型的泛化能力,还引入了固有的随机性,自然地促进了搜索空间中的探索行为。此外,为缓解可微分神经架构搜索(Differentiable NAS)带来的巨大内存开销,本文进一步提出一种简单而高效的渐进式学习策略,使得在大规模任务上直接进行搜索成为可能,从而消除了搜索阶段与评估阶段之间的差距。大量实验验证了所提方法的有效性:在CIFAR-10数据集上,移动端设置下取得2.46%的测试误差;在ImageNet数据集上,移动端设置下达到23.7%的测试误差。在NAS-Bench-201基准上,我们在全部三个数据集上均取得了当前最优结果,并为神经架构搜索算法的有效设计提供了新的洞见。