HyperAIHyperAI

Command Palette

Search for a command to run...

Transfert de connaissance des modèles linguistiques pré-entraînés vers des reconnaisseurs vocaux basés sur Cif par distillation hiérarchique

Minglun Han Feilong Chen Jing Shi Shuang Xu Bo Xu

Résumé

Les grands modèles linguistiques pré-entraînés (PLM) ont démontré un grand potentiel dans diverses tâches de traitement du langage naturel. L’exploitation des capacités des PLM pour améliorer les systèmes de reconnaissance automatique de la parole (ASR) est devenue une direction de recherche prometteuse. Toutefois, les travaux antérieurs peuvent être limités par la rigidité des architectures des PLM et par une utilisation insuffisante de ces modèles. Pour atténuer ces problèmes, nous proposons une distillation hiérarchique des connaissances (HKD) appliquée aux modèles ASR basés sur le modèle integrate-and-fire continu (CIF). Afin de transférer les connaissances des PLM vers les modèles ASR, HKD utilise une distillation de connaissances cross-modale avec une perte contrastive au niveau acoustique, ainsi qu’une distillation de connaissances avec une perte de régression au niveau linguistique. Par rapport au modèle original basé sur CIF, notre méthode permet une réduction relative de 15 % et 9 % du taux d’erreur sur les jeux de données AISHELL-1 et LibriSpeech, respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp