17 天前

无需训练的神经架构搜索

Joseph Mellor, Jack Turner, Amos Storkey, Elliot J. Crowley
无需训练的神经架构搜索
摘要

手工设计深度神经网络所需的时间和精力极为庞大。这一挑战推动了神经架构搜索(Neural Architecture Search, NAS)技术的发展,旨在实现架构设计的自动化。然而,现有的NAS算法通常效率低下且成本高昂,因其需要训练大量候选网络以支撑搜索过程。若我们能够从网络的初始状态中部分预测其训练后的性能,这一问题便可得到显著缓解。在本研究中,我们探讨了未训练网络中不同数据样本之间激活值的重叠特性,并论证了该特性可作为衡量网络训练后性能的有用指标。基于此,我们提出一种简单算法,仅需在单张GPU上运行数秒即可完成高效网络搜索,无需任何训练过程。我们在NAS-Bench-101、NAS-Bench-201、NATS-Bench以及网络设计空间(Network Design Spaces)等多个基准数据集上验证了该方法的有效性。此外,该方法可轻松与更复杂的搜索策略结合,我们进一步考察了一种正则化进化搜索的简化变体。实验复现代码已开源,地址为:https://github.com/BayesWatch/nas-without-training。