Command Palette
Search for a command to run...
GhostNetV3:面向紧凑模型的训练策略探索
GhostNetV3:面向紧凑模型的训练策略探索
Zhenhua Liu Zhiwei Hao Kai Han Yehui Tang Yunhe Wang
摘要
紧凑型神经网络专为边缘设备上的应用而设计,能够在保持较快推理速度的同时实现适度的性能表现。然而,目前紧凑模型的训练策略大多沿用传统模型的方法,忽略了二者在模型容量上的本质差异,这可能限制了紧凑模型的性能潜力。本文通过系统性地探究不同训练要素的影响,提出了一种针对紧凑模型的高效训练策略。研究发现,合理的重参数化(re-parameterization)设计与知识蒸馏(knowledge distillation)机制对于训练高性能紧凑模型至关重要;而传统模型中广泛使用的数据增强方法,如Mixup和CutMix,反而会导致紧凑模型性能下降。在ImageNet-1K数据集上的实验表明,所提出的专用训练策略可广泛适用于多种网络架构,包括GhostNetV2、MobileNetV2和ShuffleNetV2。具体而言,在采用该策略后,GhostNetV3 1.3×模型在移动端仅需269M FLOPs和14.46ms的延迟,即可达到79.1%的Top-1准确率,显著超越常规训练方式下的同构模型。此外,本研究的发现亦可推广至目标检测任务场景。相关PyTorch代码与模型权重已开源,详见:https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch。