HyperAIHyperAI

Command Palette

Search for a command to run...

Vers une reconnaissance vocale bout-en-bout compétitive pour la transcription de dîners CHiME-6

Andrei Andrusenko Aleksandr Laptev Ivan Medennikov

Résumé

Bien que les systèmes ASR end-to-end aient démontré une compétitivité face à l'approche hybride classique, ils sont sujets à une dégradation de précision dans des conditions bruyantes ou à faible ressource. Dans cet article, nous soutenons qu’ même dans de tels cas difficiles, certaines approches end-to-end atteignent une performance proche de celle de la référence hybride. Pour illustrer ce point, nous utilisons les données du défi CHiME-6 comme exemple de conditions environnementales exigeantes et de parole quotidienne bruyante. Nous comparons et analysons expérimentalement les approches CTC-Attention versus RNN-Transducer, ainsi que les architectures RNN versus Transformer. Nous examinons également la comparaison des caractéristiques acoustiques et des techniques d’amélioration vocale. En outre, nous évaluons l’efficacité des modèles linguistiques à réseau de neurones pour le re-évaluation des hypothèses dans des conditions à faible ressource. Notre meilleur modèle end-to-end basé sur RNN-Transducer, combiné à une recherche par faisceau améliorée, atteint une qualité seulement 3,8 % de WER absolue en dessous de la référence LF-MMI TDNN-F du défi CHiME-6. Grâce à une augmentation des données d’entraînement basée sur la séparation de sources guidée, cette approche dépasse à la fois le système hybride de référence de 2,7 % de WER absolu et le meilleur système end-to-end connu précédemment de 25,7 % de WER absolu.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp