17 天前

激活函数与跳跃连接搜索下NAS的泛化性能

Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher
激活函数与跳跃连接搜索下NAS的泛化性能
摘要

神经架构搜索(Neural Architecture Search, NAS)推动了先进神经网络架构的自动化发现。尽管NAS已取得显著进展,但迄今为止,针对NAS的理论保证仍鲜有研究。本文在统一框架下研究NAS的泛化性质,该框架支持(深度)层跳跃连接搜索与激活函数搜索。为此,我们基于包含混合激活函数、全连接网络以及残差网络的特定搜索空间,在有限宽与无限宽两种情形下,推导了神经正切核(Neural Tangent Kernel, NTK)最小特征值的下界(及上界)。利用该最小特征值,我们建立了基于随机梯度下降(SGD)训练的NAS泛化误差上界。尤为重要的是,我们从理论上和实验上证明了所推导结果如何指导NAS在无需训练的情况下选择表现最优的网络架构,从而提出一种基于理论的无训练(train-free)算法。相应地,我们的数值验证为设计计算高效的NAS方法提供了重要启示。由于统一框架下多种网络结构与激活函数之间的耦合关系,本分析具有非平凡性,其本身在深度学习理论中也具有独立意义,为NTK最小特征值的下界提供了新的理论结果。