HyperAIHyperAI
vor 17 Tagen

Wissensübertragung von vortrainierten Sprachmodellen auf Cif-basierte Spracherkennersysteme mittels hierarchischer Distillation

Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu
Wissensübertragung von vortrainierten Sprachmodellen auf Cif-basierte Spracherkennersysteme mittels hierarchischer Distillation
Abstract

Großskalige vortrainierte Sprachmodelle (PLMs) haben ein großes Potenzial bei Aufgaben des natürlichen Sprachverstehens gezeigt. Auch die Nutzung der Fähigkeiten von PLMs zur Verbesserung von Systemen für automatisierte Spracherkennung (ASR) hat sich als vielversprechende Forschungsrichtung etabliert. Allerdings können frühere Ansätze durch die starren Architekturen der PLMs und die unzureichende Ausnutzung ihres Wissens eingeschränkt sein. Um diese Probleme zu mindern, stellen wir eine hierarchische Wissensdistillation (HKD) für ASR-Modelle basierend auf dem kontinuierlichen Integrate-and-Fire (CIF)-Ansatz vor. Um Wissen von PLMs auf die ASR-Modelle zu übertragen, nutzt HKD eine cross-modale Wissensdistillation mit kontrastiver Verlustfunktion auf akustischer Ebene und eine Wissensdistillation mit Regressionsverlust auf sprachlicher Ebene. Im Vergleich zum ursprünglichen CIF-basierten Modell erreichen wir eine relative Reduktion des Fehleranteils um 15 % auf dem AISHELL-1-Datensatz und um 9 % auf dem LibriSpeech-Datensatz.