il y a 17 jours

Le Moyennage Ponderé Améliore la Distillation de Connaissances en Cas de Décalage de Domaine

Valeriy Berezovskiy, Nikita Morozov

Résumé

La distillation de connaissances (KD) est une technique puissante de compression de modèles largement utilisée dans les applications pratiques d’apprentissage profond. Elle consiste à entraîner un petit réseau étudiant pour qu’il imite un réseau enseignant plus volumineux. Bien qu’il soit largement reconnu que la KD améliore la généralisation de l’étudiant dans un cadre i.i.d. (indépendant et identiquement distribué), son comportement en présence d’un décalage de domaine — c’est-à-dire la performance du réseau étudiant sur des données provenant de domaines non observés durant l’entraînement — a reçu peu d’attention dans la littérature scientifique. Dans cet article, nous faisons une avancée vers le rapprochement des domaines de recherche de la distillation de connaissances et de la généralisation de domaine. Nous démontrons que des techniques de moyennage de poids proposées dans la littérature sur la généralisation de domaine, telles que SWAD et SMA, améliorent également les performances de la distillation de connaissances en cas de décalage de domaine. Par ailleurs, nous proposons une stratégie simplifiée de moyennage de poids qui ne nécessite pas d’évaluation sur des données de validation durant l’entraînement, et montrons qu’elle atteint des performances comparables à celles de SWAD et SMA lorsqu’elle est appliquée à la KD. Nous nommons notre approche finale de distillation par moyennage de poids : Weight-Averaged Knowledge Distillation (WAKD).