HyperAIHyperAI
il y a 17 jours

Transfert de connaissance des modèles linguistiques pré-entraînés vers des reconnaisseurs vocaux basés sur Cif par distillation hiérarchique

Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu
Transfert de connaissance des modèles linguistiques pré-entraînés vers des reconnaisseurs vocaux basés sur Cif par distillation hiérarchique
Résumé

Les grands modèles linguistiques pré-entraînés (PLM) ont démontré un grand potentiel dans diverses tâches de traitement du langage naturel. L’exploitation des capacités des PLM pour améliorer les systèmes de reconnaissance automatique de la parole (ASR) est devenue une direction de recherche prometteuse. Toutefois, les travaux antérieurs peuvent être limités par la rigidité des architectures des PLM et par une utilisation insuffisante de ces modèles. Pour atténuer ces problèmes, nous proposons une distillation hiérarchique des connaissances (HKD) appliquée aux modèles ASR basés sur le modèle integrate-and-fire continu (CIF). Afin de transférer les connaissances des PLM vers les modèles ASR, HKD utilise une distillation de connaissances cross-modale avec une perte contrastive au niveau acoustique, ainsi qu’une distillation de connaissances avec une perte de régression au niveau linguistique. Par rapport au modèle original basé sur CIF, notre méthode permet une réduction relative de 15 % et 9 % du taux d’erreur sur les jeux de données AISHELL-1 et LibriSpeech, respectivement.