HyperAIHyperAI

Command Palette

Search for a command to run...

TEVR : Amélioration de la reconnaissance vocale par réduction de la variance de l'entropie des tokens

Hajo Nils Krabbenhöft Erhardt Barth

Résumé

Cet article présente TEVR, un modèle de reconnaissance vocale conçu pour minimiser la variation de l’entropie des tokens par rapport au modèle de langage. Cette approche exploite le fait que si le modèle de langage est capable de prédire un token de manière fiable et précise, alors le modèle acoustique n’a pas besoin d’être aussi précis dans sa reconnaissance. Nous avons entraîné des modèles de reconnaissance automatique de la parole (ASR) en allemand comportant 900 millions de paramètres, et montrons que sur le corpus CommonVoice allemand, TEVR atteint un taux d’erreur de mot très compétitif de 3,64 %, surpassant ainsi les meilleurs résultats publiés précédemment avec une réduction relative du taux d’erreur de 16,89 %. Nous espérons que la mise à disposition de notre pipeline de reconnaissance vocale entièrement entraîné à la communauté contribuera à l’émergence, à l’avenir, d’assistants virtuels hors ligne respectueux de la vie privée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TEVR : Amélioration de la reconnaissance vocale par réduction de la variance de l'entropie des tokens | Articles | HyperAI