HyperAIHyperAI
il y a 2 mois

Distillation de connaissances au niveau des séquences

Yoon Kim; Alexander M. Rush
Distillation de connaissances au niveau des séquences
Résumé

La traduction neuronale (Neural Machine Translation, NMT) offre une nouvelle formulation de la traduction potentiellement plus simple que les approches statistiques. Cependant, pour atteindre des performances compétitives, les modèles NMT doivent être extrêmement volumineux. Dans cet article, nous examinons l'application des approches de distillation de connaissances (Bucila et al., 2006 ; Hinton et al., 2015), qui ont fait leurs preuves pour réduire la taille des modèles neuronaux dans d'autres domaines, au problème de la NMT. Nous démontrons que la distillation de connaissances standard appliquée à la prédiction au niveau des mots peut être efficace pour la NMT, et nous introduisons également deux nouvelles versions au niveau séquentiel de la distillation de connaissances qui améliorent encore davantage les performances. De manière surprenante, ces méthodes semblent éliminer le besoin de recherche en faisceau (même lorsqu'elle est appliquée au modèle enseignant original). Notre meilleur modèle étudiant s'exécute 10 fois plus rapidement que son modèle enseignant d'avant-garde avec une perte minime en performance. Il est également significativement meilleur qu'un modèle de référence entraîné sans distillation de connaissances : par 4,2/1,7 BLEU avec décodage glouton/recherche en faisceau. L'application d'une élagage des poids en complément de la distillation de connaissances aboutit à un modèle étudiant qui compte 13 fois moins de paramètres que le modèle enseignant original, avec une diminution de 0,4 BLEU.