17 天前
DSNAS:无需参数重训练的直接神经架构搜索
Shoukang Hu, Sirui Xie, Hehui Zheng, Chunxiao Liu, Jianping Shi, Xunying Liu, Dahua Lin

摘要
如果将NAS方法视为解决方案,那么其对应的问题究竟是什么?目前大多数NAS方法均采用两阶段参数优化策略,然而同一网络架构在两个阶段中的性能表现相关性较差。基于这一观察,本文提出了一个全新的NAS问题定义——面向特定任务的端到端(task-specific end-to-end)NAS。我们认为,针对某一特定计算机视觉任务,该定义可将原本模糊的NAS评估标准明确为两个核心指标:i)该任务下的模型准确率;ii)最终获得满足精度要求模型所消耗的总计算量。鉴于现有大多数方法并未直接解决这一问题,本文提出DSNAS——一种高效的可微分NAS框架。该框架通过低偏差的蒙特卡洛估计,实现网络结构与模型参数的联合优化。由DSNAS生成的子网络可直接部署使用,无需额外的参数微调。与传统两阶段方法相比,DSNAS在仅消耗420 GPU小时的情况下,于ImageNet数据集上成功发现准确率高达74.4%的网络结构,总耗时减少超过34%。相关代码已开源,地址为:https://github.com/SNAS-Series/SNAS-Series。