HyperAIHyperAI
il y a 11 jours

Distillation de connaissances auto-orientée avec raffinement progressif des cibles

Kyungyul Kim, ByeongMoon Ji, Doyoung Yoon, Sangheum Hwang
Distillation de connaissances auto-orientée avec raffinement progressif des cibles
Résumé

La capacité de généralisation des réseaux neuronaux profonds a été sensiblement améliorée grâce à l’application d’un large éventail de méthodes de régularisation, telles que la restriction de l’espace fonctionnel, l’ajout de bruit aléatoire pendant l’entraînement, ou encore l’augmentation des données. Dans ce travail, nous proposons une méthode de régularisation simple mais efficace, nommée distillation progressive de connaissances auto-enseignées (PS-KD), qui distille progressivement les connaissances propres d’un modèle afin d’adoucir les cibles dures (c’est-à-dire les vecteurs one-hot) pendant l’entraînement. Cette approche peut ainsi être interprétée dans le cadre de la distillation de connaissances comme un cas où l’élève devient lui-même son propre maître. Plus précisément, les cibles sont ajustées de manière adaptative en combinant les vérités terrain avec les prédictions passées du modèle lui-même. Nous démontrons que PS-KD réalise une forme d’extraction automatique d’exemples difficiles en redimensionnant les gradients en fonction de la difficulté de classification des exemples. La méthode proposée est applicable à tout problème d’apprentissage supervisé utilisant des cibles dures et peut être facilement combinée avec des méthodes de régularisation existantes afin d’améliorer davantage la performance de généralisation. En outre, il a été confirmé que PS-KD permet non seulement d’atteindre une meilleure précision, mais aussi de fournir des estimations de confiance de haute qualité en termes de calibration ainsi qu’en termes de classement ordinal. Des résultats expérimentaux étendus sur trois tâches différentes — classification d’images, détection d’objets et traduction automatique — démontrent que notre méthode améliore de manière cohérente les performances des états de l’art existants. Le code est disponible à l’adresse suivante : https://github.com/lgcnsai/PS-KD-Pytorch.

Distillation de connaissances auto-orientée avec raffinement progressif des cibles | Articles de recherche récents | HyperAI