HyperAIHyperAI
il y a 17 jours

Distillation de connaissance textuelle en deux étapes pour la compréhension linguistique parlée bout-en-bout

Seongbin Kim, Gyuwan Kim, Seongjin Shin, Sangmin Lee
Distillation de connaissance textuelle en deux étapes pour la compréhension linguistique parlée bout-en-bout
Résumé

Les approches end-to-end ouvrent une nouvelle voie vers des systèmes plus précis et plus efficaces de compréhension du langage parlé (SLU) en atténuant les limites des systèmes traditionnels en pipeline. Les travaux antérieurs exploitaient l'information textuelle dans un modèle SLU via un pré-entraînement avec reconnaissance automatique de la parole (ASR) ou un ajustement fin avec une distillation de connaissances. Afin d’utiliser l’information textuelle de manière plus efficace, cette étude propose une méthode de distillation de connaissances textuelles en deux étapes, qui aligne successivement les représentations au niveau de l’énoncé et les logits prédits des deux modalités (parole et texte) durant le pré-entraînement et l’ajustement fin. Nous utilisons vq-wav2vec BERT comme encodeur vocal, car il permet de capturer des caractéristiques générales et riches. En outre, nous améliorons les performances, en particulier dans un contexte à faible ressource, grâce à des techniques d’augmentation de données consistant à masquer aléatoirement des segments de tokens audio discrets et des représentations cachées contextualisées. En conséquence, nous atteignons un nouveau record sur le jeu de données Fluent Speech Commands, avec une précision de test de 99,7 % dans le cas complet et de 99,5 % sur un sous-ensemble de 10 %. À travers des études d’ablation, nous vérifions empiriquement que toutes les méthodes proposées sont cruciales pour la performance finale, offrant ainsi une meilleure pratique pour la compréhension du langage parlé. Le code est disponible à l’adresse suivante : https://github.com/clovaai/textual-kd-slu.