18 天前

基于知识蒸馏的分块监督神经架构搜索

Changlin Li, Jiefeng Peng, Liuchun Yuan, Guangrun Wang, Xiaodan Liang, Liang Lin, Xiaojun Chang
基于知识蒸馏的分块监督神经架构搜索
摘要

神经架构搜索(Neural Architecture Search, NAS)旨在通过机器自动设计网络架构,被寄予厚望,有望在机器学习领域引发新一轮革命。然而,尽管期望甚高,现有NAS方案的有效性与效率仍不明确,部分近期研究甚至指出,许多现有NAS方法的实际表现并不优于随机选择架构。NAS效率低下的主要原因在于架构评估的不准确:为加速搜索过程,近期方法普遍采用共享网络参数的方式,在大规模搜索空间中对多个候选架构进行欠训练(under-training)并行评估;然而,这种做法导致了架构评分的偏差,进一步削弱了NAS的有效性。针对上述问题,本文提出将NAS的大规模搜索空间划分为模块化块(blocks),以确保候选架构能够得到充分训练。这一策略有效缓解了因参数共享带来的表征偏移(representation shift),从而实现对候选架构的准确评估。得益于块级(block-wise)搜索机制,我们还可对同一块内的所有候选架构进行完整评估。此外,我们发现网络模型的知识不仅体现在其参数中,也深植于其架构结构之中。因此,本文提出从教师模型中蒸馏神经架构(即“神经架构知识”或DNA)作为监督信号,指导块级架构搜索,显著提升了NAS的有效性。值得注意的是,所搜索得到的架构性能甚至超越了教师模型,充分验证了本方法的实用性与可扩展性。最终,该方法在移动设备场景下于ImageNet数据集上实现了78.4%的Top-1准确率,较EfficientNet-B0提升了约2.1个百分点,达到当前最优水平。所有搜索得到的模型及其评估代码均已公开,可供研究与应用参考。