HyperAIHyperAI

Command Palette

Search for a command to run...

MEAL V2 : Porter le ResNet-50 vanilla à plus de 80 % de précision Top-1 sur ImageNet sans astuces

Zhiqiang Shen Marios Savvides

Résumé

Nous introduisons un cadre de distillation simple mais efficace, capable d’augmenter la précision Top-1 de ResNet-50 classique à plus de 80 % sur ImageNet sans recourir à des astuces spécifiques. Ce cadre est construit en analysant les limites du système de classification existant, et en simplifiant la distillation des connaissances par ensemble de modèles de base via des discriminateurs, en adoptant : (1) une perte de similarité et un discriminateur uniquement sur les sorties finales ; (2) l’utilisation de la moyenne des probabilités de softmax issues de tous les modèles enseignants comme une supervision renforcée. De manière intrigante, trois nouvelles perspectives sont proposées pour la distillation : (1) le weight decay peut être affaibli, voire complètement supprimé, car l’étiquette douce exerce également un effet de régularisation ; (2) une bonne initialisation des modèles élèves est cruciale ; (3) l’étiquette one-hot ou dure n’est pas nécessaire lors de la distillation si les poids sont correctement initialisés. Nous montrons qu’un tel cadre direct peut atteindre des résultats de pointe sans recourir à des techniques couramment utilisées, telles que la modification d’architecture, des données d’entraînement supplémentaires au-delà d’ImageNet, AutoAug/RandAug, un taux d’apprentissage cosinus, des méthodes comme mixup/cutmix, ou le lissage d’étiquettes, etc. Notre méthode obtient une précision Top-1 de 80,67 % sur ImageNet en utilisant une seule taille de découpe de 224×224 avec ResNet-50 classique, surpassant significativement les états de l’art précédents dans les mêmes conditions d’architecture. Nos résultats peuvent être considérés comme une base solide pour la distillation des connaissances, et, à notre connaissance, il s’agit également de la première méthode capable d’augmenter ResNet-50 classique au-delà de 80 % sur ImageNet sans modification d’architecture ni données d’entraînement supplémentaires. Sur ResNet-18 plus petit, notre cadre de distillation améliore de manière cohérente les performances de 69,76 % à 73,19 %, ce qui témoigne d’une valeur pratique considérable dans des applications réelles. Notre code et nos modèles sont disponibles à l’adresse suivante : https://github.com/szq0214/MEAL-V2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp