Command Palette
Search for a command to run...
GhostNetV3: Untersuchung von Trainierstrategien für kompakte Modelle
GhostNetV3: Untersuchung von Trainierstrategien für kompakte Modelle
Zhenhua Liu Zhiwei Hao Kai Han Yehui Tang Yunhe Wang
Zusammenfassung
Kompakte neuronale Netzwerke sind speziell für Anwendungen auf Edge-Geräten konzipiert und zeichnen sich durch eine schnellere Inferenzgeschwindigkeit bei nur moderater Leistungsfähigkeit aus. Derzeit werden jedoch die Trainingsstrategien kompakter Modelle aus jenen herkömmlicher Modelle übernommen, was deren Unterschiede in der Modellkapazität ignoriert und somit die Leistung kompakter Modelle beeinträchtigen kann. In dieser Arbeit untersuchen wir systematisch die Auswirkungen verschiedener Trainingskomponenten und stellen eine effektive Trainingsstrategie für kompakte Modelle vor. Wir stellen fest, dass eine sorgfältige Gestaltung von Re-Parameterisierung und Knowledge Distillation entscheidend für die Entwicklung hochleistungsfähiger kompakter Modelle ist, während einige übliche Datenverstärkungsmethoden, die für herkömmliche Modelle verwendet werden, wie Mixup und CutMix, zu einer verschlechterten Leistung führen. Unsere Experimente auf dem ImageNet-1K-Datensatz zeigen, dass unsere spezialisierte Trainingsstrategie für kompakte Modelle auf verschiedene Architekturen anwendbar ist, darunter GhostNetV2, MobileNetV2 und ShuffleNetV2. Insbesondere erreicht GhostNetV3 1,3× mit unserer Strategie eine Top-1-Accuracy von 79,1 % bei lediglich 269 M FLOPs und einer Latenz von 14,46 ms auf mobilen Geräten – deutlich besser als das üblicherweise trainierte Pendant. Darüber hinaus lässt sich unsere Beobachtung auch auf Szenarien der Objekterkennung übertragen. Der PyTorch-Code und die Modellcheckpoint-Dateien sind unter https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch verfügbar.