HyperAIHyperAI

Command Palette

Search for a command to run...

Le Moyennage Ponderé Améliore la Distillation de Connaissances en Cas de Décalage de Domaine

Valeriy Berezovskiy Nikita Morozov

Résumé

La distillation de connaissances (KD) est une technique puissante de compression de modèles largement utilisée dans les applications pratiques d’apprentissage profond. Elle consiste à entraîner un petit réseau étudiant pour qu’il imite un réseau enseignant plus volumineux. Bien qu’il soit largement reconnu que la KD améliore la généralisation de l’étudiant dans un cadre i.i.d. (indépendant et identiquement distribué), son comportement en présence d’un décalage de domaine — c’est-à-dire la performance du réseau étudiant sur des données provenant de domaines non observés durant l’entraînement — a reçu peu d’attention dans la littérature scientifique. Dans cet article, nous faisons une avancée vers le rapprochement des domaines de recherche de la distillation de connaissances et de la généralisation de domaine. Nous démontrons que des techniques de moyennage de poids proposées dans la littérature sur la généralisation de domaine, telles que SWAD et SMA, améliorent également les performances de la distillation de connaissances en cas de décalage de domaine. Par ailleurs, nous proposons une stratégie simplifiée de moyennage de poids qui ne nécessite pas d’évaluation sur des données de validation durant l’entraînement, et montrons qu’elle atteint des performances comparables à celles de SWAD et SMA lorsqu’elle est appliquée à la KD. Nous nommons notre approche finale de distillation par moyennage de poids : Weight-Averaged Knowledge Distillation (WAKD).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Le Moyennage Ponderé Améliore la Distillation de Connaissances en Cas de Décalage de Domaine | Articles | HyperAI