
摘要
现有的多数神经架构搜索(Neural Architecture Search, NAS)方法依赖于下游训练来评估网络架构,这一过程消耗大量计算资源。鉴于此类计算带来的巨大碳足迹,本文旨在探索一种绿色(即环境友好型)的NAS解决方案,该方案能够在不进行训练的情况下评估网络架构。直观地看,由架构本身所引发的梯度直接决定了模型的收敛性与泛化能力,这一观察促使我们提出“梯度核假设”:梯度可作为下游训练的粗粒度代理,用于评估随机初始化的网络。为验证该假设,我们进行了理论分析,并发现一种实际可行的梯度核,其与训练损失及验证性能具有良好的相关性。基于该假设,我们提出了一种基于核函数的新型架构搜索方法——KNAS。实验结果表明,在图像分类任务上,KNAS在获得与“先训练后测试”范式相当甚至更优的性能的同时,搜索速度提升了数个数量级。此外,极低的搜索开销使其具备广泛的应用潜力。所搜索得到的网络在两个文本分类任务上,性能超越了强大的基线模型RoBERTA-large。相关代码已开源,地址为:\url{https://github.com/Jingjing-NLP/KNAS}。