HyperAIHyperAI
il y a 18 jours

Whispering LLaMA : un cadre génératif de correction d'erreurs multimodal pour la reconnaissance vocale

Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner
Whispering LLaMA : un cadre génératif de correction d'erreurs multimodal pour la reconnaissance vocale
Résumé

Nous introduisons une nouvelle technique de fusion multimodale conçue pour la correction d’erreurs génératives dans la reconnaissance automatique de la parole (ASR). Notre approche exploite à la fois les informations acoustiques et des représentations linguistiques externes afin de générer des contextes de transcription vocale précis. Ce travail marque une avancée vers un nouveau paradigme dans la correction d’erreurs génératives au sein des hypothèses n-best. Contrairement aux méthodes existantes basées sur le classement et la réévaluation, notre méthode utilise habilement des techniques d’initialisation distinctes ainsi que des algorithmes à faible coût en paramètres pour améliorer les performances ASR issues de modèles pré-entraînés sur la parole et le texte. En évaluant notre technique de fusion sur divers jeux de données ASR, nous démontrons sa stabilité et sa reproductibilité, tout en montrant une amélioration significative du taux d’erreur en mots relatif (WERR) par rapport aux hypothèses n-best, avec une progression moyenne de 37,66 %. Afin de stimuler les recherches futures, nous mettons à disposition notre code source ainsi que nos modèles pré-entraînés sur GitHub à l’adresse suivante : https://github.com/Srijith-rkr/Whispering-LLaMA.