8 个月前

摘要

紧凑型神经网络专为边缘设备上的应用而设计，能够在保持较快推理速度的同时实现适度的性能表现。然而，目前紧凑模型的训练策略大多沿用传统模型的方法，忽略了二者在模型容量上的本质差异，这可能限制了紧凑模型的性能潜力。本文通过系统性地探究不同训练要素的影响，提出了一种针对紧凑模型的高效训练策略。研究发现，合理的重参数化（re-parameterization）设计与知识蒸馏（knowledge distillation）机制对于训练高性能紧凑模型至关重要；而传统模型中广泛使用的数据增强方法，如Mixup和CutMix，反而会导致紧凑模型性能下降。在ImageNet-1K数据集上的实验表明，所提出的专用训练策略可广泛适用于多种网络架构，包括GhostNetV2、MobileNetV2和ShuffleNetV2。具体而言，在采用该策略后，GhostNetV3 1.3×模型在移动端仅需269M FLOPs和14.46ms的延迟，即可达到79.1%的Top-1准确率，显著超越常规训练方式下的同构模型。此外，本研究的发现亦可推广至目标检测任务场景。相关PyTorch代码与模型权重已开源，详见：https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch。

源 PDF