HyperAIHyperAI
il y a 3 mois

MEAL V2 : Porter le ResNet-50 vanilla à plus de 80 % de précision Top-1 sur ImageNet sans astuces

Zhiqiang Shen, Marios Savvides
MEAL V2 : Porter le ResNet-50 vanilla à plus de 80 % de précision Top-1 sur ImageNet sans astuces
Résumé

Nous introduisons un cadre de distillation simple mais efficace, capable d’augmenter la précision Top-1 de ResNet-50 classique à plus de 80 % sur ImageNet sans recourir à des astuces spécifiques. Ce cadre est construit en analysant les limites du système de classification existant, et en simplifiant la distillation des connaissances par ensemble de modèles de base via des discriminateurs, en adoptant : (1) une perte de similarité et un discriminateur uniquement sur les sorties finales ; (2) l’utilisation de la moyenne des probabilités de softmax issues de tous les modèles enseignants comme une supervision renforcée. De manière intrigante, trois nouvelles perspectives sont proposées pour la distillation : (1) le weight decay peut être affaibli, voire complètement supprimé, car l’étiquette douce exerce également un effet de régularisation ; (2) une bonne initialisation des modèles élèves est cruciale ; (3) l’étiquette one-hot ou dure n’est pas nécessaire lors de la distillation si les poids sont correctement initialisés. Nous montrons qu’un tel cadre direct peut atteindre des résultats de pointe sans recourir à des techniques couramment utilisées, telles que la modification d’architecture, des données d’entraînement supplémentaires au-delà d’ImageNet, AutoAug/RandAug, un taux d’apprentissage cosinus, des méthodes comme mixup/cutmix, ou le lissage d’étiquettes, etc. Notre méthode obtient une précision Top-1 de 80,67 % sur ImageNet en utilisant une seule taille de découpe de 224×224 avec ResNet-50 classique, surpassant significativement les états de l’art précédents dans les mêmes conditions d’architecture. Nos résultats peuvent être considérés comme une base solide pour la distillation des connaissances, et, à notre connaissance, il s’agit également de la première méthode capable d’augmenter ResNet-50 classique au-delà de 80 % sur ImageNet sans modification d’architecture ni données d’entraînement supplémentaires. Sur ResNet-18 plus petit, notre cadre de distillation améliore de manière cohérente les performances de 69,76 % à 73,19 %, ce qui témoigne d’une valeur pratique considérable dans des applications réelles. Notre code et nos modèles sont disponibles à l’adresse suivante : https://github.com/szq0214/MEAL-V2.