
摘要
权重共享神经架构搜索(Weight-sharing Neural Architecture Search, NAS)是一种有效实现高效神经网络架构自动设计的技术。权重共享NAS构建一个超网络(supernet),将所有候选架构作为其子网络,并联合训练超网络与各子网络。该方法的成功在很大程度上依赖于从超网络向子网络的知识蒸馏过程。然而,我们发现当前广泛采用的蒸馏损失——即KL散度——可能导致学生子网络对教师超网络的不确定性产生高估或低估,从而降低子网络的性能表现。为此,本文提出采用更通用的α散度(alpha-divergence)来改进超网络的训练过程。通过自适应地选择合适的α散度,我们能够同时避免对教师模型不确定性的高估或低估问题。我们将所提出的基于α散度的超网络训练方法应用于可伸缩神经网络(slimmable neural networks)与权重共享NAS任务中,并取得了显著的性能提升。具体而言,我们所发现的模型系列——AlphaNet,在多种计算量(FLOPs)范围内均显著优于现有先进模型,涵盖BigNAS、Once-for-All网络以及AttentiveNAS等。在仅使用444M FLOPs的情况下,AlphaNet在ImageNet数据集上实现了80.0%的top-1准确率。相关代码与预训练模型已开源,详见:https://github.com/facebookresearch/AlphaNet。