il y a 17 jours

TEVR : Amélioration de la reconnaissance vocale par réduction de la variance de l'entropie des tokens

Hajo Nils Krabbenhöft, Erhardt Barth

Résumé

Cet article présente TEVR, un modèle de reconnaissance vocale conçu pour minimiser la variation de l’entropie des tokens par rapport au modèle de langage. Cette approche exploite le fait que si le modèle de langage est capable de prédire un token de manière fiable et précise, alors le modèle acoustique n’a pas besoin d’être aussi précis dans sa reconnaissance. Nous avons entraîné des modèles de reconnaissance automatique de la parole (ASR) en allemand comportant 900 millions de paramètres, et montrons que sur le corpus CommonVoice allemand, TEVR atteint un taux d’erreur de mot très compétitif de 3,64 %, surpassant ainsi les meilleurs résultats publiés précédemment avec une réduction relative du taux d’erreur de 16,89 %. Nous espérons que la mise à disposition de notre pipeline de reconnaissance vocale entièrement entraîné à la communauté contribuera à l’émergence, à l’avenir, d’assistants virtuels hors ligne respectueux de la vie privée.