HyperAIHyperAI
il y a 2 mois

Reconnaissance automatique de la parole open source pour l'allemand

Benjamin Milde; Arne Köhn
Reconnaissance automatique de la parole open source pour l'allemand
Résumé

Une reconnaissance vocale automatique (ASR) de haute qualité est une condition préalable essentielle pour les applications et la recherche basées sur la parole. Bien que des logiciels ASR de pointe soient disponibles gratuitement, les modèles acoustiques dépendants de la langue font défaut pour les langues autres que l'anglais, en raison de la quantité limitée de données d'entraînement librement accessibles. Nous avons formé des modèles acoustiques pour l'allemand à l'aide de Kaldi sur deux ensembles de données, tous deux distribués sous licence Creative Commons. Le modèle résultant est librement redistribuable, réduisant ainsi le coût d'accès à la reconnaissance vocale automatique en allemand. Les modèles ont été entraînés sur un total de 412 heures de données de parole lue en allemand, et nous avons obtenu une réduction relative des erreurs lexicales de 26 % en ajoutant des données du corpus Wikipédia parlé (Spoken Wikipedia Corpus) à la recette et aux données d'entraînement précédemment meilleures disponibles gratuitement pour le modèle acoustique allemand. Notre meilleur modèle atteint un taux d'erreur lexical de 14,38 % sur l'ensemble de test Tuda-De. Grâce au grand nombre de locuteurs et à la diversité des sujets inclus dans les données d'entraînement, notre modèle est robuste face aux variations des locuteurs et aux changements de sujet.

Reconnaissance automatique de la parole open source pour l'allemand | Articles de recherche récents | HyperAI