
摘要
神经架构搜索(Neural Architecture Search, NAS)近年来得到了爆炸性的发展,旨在自动化发现性能优异的神经网络结构。然而,现有方法通常依赖于对超网络(supernet)的大量训练或对大量架构进行密集评估,导致资源消耗巨大,并且由于训练过程被截断或采用近似方法,容易引入搜索偏差。能否在不进行任何训练的前提下,筛选出最优神经网络架构,并大幅降低搜索成本?本文给出了肯定的回答,提出了一种全新的无训练神经架构搜索框架——TE-NAS(Training-Free Neural Architecture Search)。TE-NAS通过分析神经正切核(Neural Tangent Kernel, NTK)的谱特性以及输入空间中线性区域的数量,对候选架构进行排序。这两项指标均基于深度网络理论研究的最新进展,且无需任何训练过程,也无需标签信息即可计算。我们证明了:(1)这两个度量能够有效反映神经网络的可训练性(trainability)与表达能力(expressivity);(2)它们与网络在测试集上的准确率具有强相关性。在此基础上,我们设计了一种基于剪枝的NAS机制,在搜索过程中实现了可训练性与表达能力之间更灵活、更优越的权衡。在NAS-Bench-201和DARTS搜索空间中,TE-NAS能够在极低的计算开销下完成高质量的架构搜索:在CIFAR-10数据集上仅需0.5个GPU小时(单张1080Ti显卡),在ImageNet数据集上仅需4个GPU小时。相比传统方法,搜索成本显著降低。我们希望本工作能激发更多研究尝试,推动深度网络理论成果与实际NAS应用之间的桥梁建设。代码已开源,地址为:https://github.com/VITA-Group/TENAS。