HyperAIHyperAI

Command Palette

Search for a command to run...

GhostNetV3:面向紧凑模型的训练策略探索

Zhenhua Liu Zhiwei Hao Kai Han Yehui Tang Yunhe Wang

摘要

紧凑型神经网络专为边缘设备上的应用而设计,能够在保持较快推理速度的同时实现适度的性能表现。然而,目前紧凑模型的训练策略大多沿用传统模型的方法,忽略了二者在模型容量上的本质差异,这可能限制了紧凑模型的性能潜力。本文通过系统性地探究不同训练要素的影响,提出了一种针对紧凑模型的高效训练策略。研究发现,合理的重参数化(re-parameterization)设计与知识蒸馏(knowledge distillation)机制对于训练高性能紧凑模型至关重要;而传统模型中广泛使用的数据增强方法,如Mixup和CutMix,反而会导致紧凑模型性能下降。在ImageNet-1K数据集上的实验表明,所提出的专用训练策略可广泛适用于多种网络架构,包括GhostNetV2、MobileNetV2和ShuffleNetV2。具体而言,在采用该策略后,GhostNetV3 1.3×模型在移动端仅需269M FLOPs和14.46ms的延迟,即可达到79.1%的Top-1准确率,显著超越常规训练方式下的同构模型。此外,本研究的发现亦可推广至目标检测任务场景。相关PyTorch代码与模型权重已开源,详见:https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供