17 天前
神经架构迁移
Zhichao Lu, Gautam Sreekumar, Erik Goodman, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti

摘要
神经架构搜索(Neural Architecture Search, NAS)已成为自动设计任务特定神经网络的有前景方向。现有NAS方法针对每一种硬件配置或优化目标均需完成一次完整的搜索过程,而由于应用场景可能极为多样,这种做法在计算上极不现实。本文提出神经架构迁移(Neural Architecture Transfer, NAT),以克服这一局限。NAT旨在高效生成在多种相互冲突目标下均具备竞争力的任务特定定制模型。为实现该目标,我们从任务特定的超网络(supernet)中学习,从而可在无需额外训练的情况下采样出专用子网络。本方法的核心在于一种融合在线迁移学习与多目标进化搜索的集成机制:预训练的超网络在持续迭代中被适应,同时同步进行针对特定任务的子网络搜索。我们在11个基准图像分类任务上验证了NAT的有效性,涵盖从大规模多类别到小规模细粒度数据集的多种场景。在所有测试案例中,包括ImageNet在内,NAT生成的模型在移动端设置下(≤600M乘加操作)均优于现有最先进方法。令人意外的是,小规模细粒度数据集在NAT框架下受益最为显著。与此同时,架构搜索与迁移过程的效率相比现有NAS方法提升了数个数量级。总体而言,实验结果表明,在多样化的图像分类任务与计算约束条件下,NAT相较于传统迁移学习(即在标准数据集上预训练的网络架构进行微调权重)是一种显著更高效的替代方案。代码已开源,地址为:https://github.com/human-analysis/neural-architecture-transfer