17 天前

在四GPU小时内完成ImageNet上的神经架构搜索：一种理论启发的视角

Wuyang Chen, Xinyu Gong, Zhangyang Wang

摘要

神经架构搜索（Neural Architecture Search, NAS）近年来得到了爆炸性的发展，旨在自动化发现性能优异的神经网络结构。然而，现有方法通常依赖于对超网络（supernet）的大量训练或对大量架构进行密集评估，导致资源消耗巨大，并且由于训练过程被截断或采用近似方法，容易引入搜索偏差。能否在不进行任何训练的前提下，筛选出最优神经网络架构，并大幅降低搜索成本？本文给出了肯定的回答，提出了一种全新的无训练神经架构搜索框架——TE-NAS（Training-Free Neural Architecture Search）。TE-NAS通过分析神经正切核（Neural Tangent Kernel, NTK）的谱特性以及输入空间中线性区域的数量，对候选架构进行排序。这两项指标均基于深度网络理论研究的最新进展，且无需任何训练过程，也无需标签信息即可计算。我们证明了：（1）这两个度量能够有效反映神经网络的可训练性（trainability）与表达能力（expressivity）；（2）它们与网络在测试集上的准确率具有强相关性。在此基础上，我们设计了一种基于剪枝的NAS机制，在搜索过程中实现了可训练性与表达能力之间更灵活、更优越的权衡。在NAS-Bench-201和DARTS搜索空间中，TE-NAS能够在极低的计算开销下完成高质量的架构搜索：在CIFAR-10数据集上仅需0.5个GPU小时（单张1080Ti显卡），在ImageNet数据集上仅需4个GPU小时。相比传统方法，搜索成本显著降低。我们希望本工作能激发更多研究尝试，推动深度网络理论成果与实际NAS应用之间的桥梁建设。代码已开源，地址为：https://github.com/VITA-Group/TENAS。