8ヶ月前

概要

コンパクトなニューラルネットワークは、エッジデバイス上で高速な推論を実現するように特別に設計されており、性能はやや低いものの、効率性が重視されます。しかし、現状ではコンパクトモデルの学習戦略が従来型モデルのものと同様に採用されており、モデル容量の違いを無視しているため、コンパクトモデルの性能向上を阻害する可能性があります。本論文では、さまざまな学習要因の影響を体系的に検証した結果、コンパクトモデル向けに強力な学習戦略を提案します。その結果、再パラメータ化（re-parameterization）および知識蒸留（knowledge distillation）の適切な設計が、高性能なコンパクトモデルの学習において極めて重要であることが明らかになりました。一方で、従来型モデルの学習に一般的に用いられるデータ拡張手法（MixupやCutMixなど）は、コンパクトモデルでは逆に性能を低下させることが示されました。ImageNet-1Kデータセットを用いた実験により、本研究で提案する専用の学習戦略が、GhostNetV2、MobileNetV2、ShuffleNetV2など多様なアーキテクチャに適用可能であることを確認しました。特に、本戦略を採用したGhostNetV3 1.3×は、わずか269M FLOPs、モバイルデバイス上での遅延14.46msでトップ1精度79.1%を達成し、通常の学習手法で訓練された同型モデルを大きく上回りました。さらに、本研究の知見は物体検出タスクにも拡張可能であることが示されました。PyTorch実装コードおよびモデルチェックポイントは、https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch にて公開されています。

ソースPDF