18 天前

基于知识蒸馏的分块监督神经架构搜索

Changlin Li, Jiefeng Peng, Liuchun Yuan, Guangrun Wang, Xiaodan Liang, Liang Lin, Xiaojun Chang

摘要

神经架构搜索（Neural Architecture Search, NAS）旨在通过机器自动设计网络架构，被寄予厚望，有望在机器学习领域引发新一轮革命。然而，尽管期望甚高，现有NAS方案的有效性与效率仍不明确，部分近期研究甚至指出，许多现有NAS方法的实际表现并不优于随机选择架构。NAS效率低下的主要原因在于架构评估的不准确：为加速搜索过程，近期方法普遍采用共享网络参数的方式，在大规模搜索空间中对多个候选架构进行欠训练（under-training）并行评估；然而，这种做法导致了架构评分的偏差，进一步削弱了NAS的有效性。针对上述问题，本文提出将NAS的大规模搜索空间划分为模块化块（blocks），以确保候选架构能够得到充分训练。这一策略有效缓解了因参数共享带来的表征偏移（representation shift），从而实现对候选架构的准确评估。得益于块级（block-wise）搜索机制，我们还可对同一块内的所有候选架构进行完整评估。此外，我们发现网络模型的知识不仅体现在其参数中，也深植于其架构结构之中。因此，本文提出从教师模型中蒸馏神经架构（即“神经架构知识”或DNA）作为监督信号，指导块级架构搜索，显著提升了NAS的有效性。值得注意的是，所搜索得到的架构性能甚至超越了教师模型，充分验证了本方法的实用性与可扩展性。最终，该方法在移动设备场景下于ImageNet数据集上实现了78.4%的Top-1准确率，较EfficientNet-B0提升了约2.1个百分点，达到当前最优水平。所有搜索得到的模型及其评估代码均已公开，可供研究与应用参考。