HyperAIHyperAI
il y a 17 jours

Vers une reconnaissance vocale bout-en-bout compétitive pour la transcription de dîners CHiME-6

Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov
Vers une reconnaissance vocale bout-en-bout compétitive pour la transcription de dîners CHiME-6
Résumé

Bien que les systèmes ASR end-to-end aient démontré une compétitivité face à l'approche hybride classique, ils sont sujets à une dégradation de précision dans des conditions bruyantes ou à faible ressource. Dans cet article, nous soutenons qu’ même dans de tels cas difficiles, certaines approches end-to-end atteignent une performance proche de celle de la référence hybride. Pour illustrer ce point, nous utilisons les données du défi CHiME-6 comme exemple de conditions environnementales exigeantes et de parole quotidienne bruyante. Nous comparons et analysons expérimentalement les approches CTC-Attention versus RNN-Transducer, ainsi que les architectures RNN versus Transformer. Nous examinons également la comparaison des caractéristiques acoustiques et des techniques d’amélioration vocale. En outre, nous évaluons l’efficacité des modèles linguistiques à réseau de neurones pour le re-évaluation des hypothèses dans des conditions à faible ressource. Notre meilleur modèle end-to-end basé sur RNN-Transducer, combiné à une recherche par faisceau améliorée, atteint une qualité seulement 3,8 % de WER absolue en dessous de la référence LF-MMI TDNN-F du défi CHiME-6. Grâce à une augmentation des données d’entraînement basée sur la séparation de sources guidée, cette approche dépasse à la fois le système hybride de référence de 2,7 % de WER absolu et le meilleur système end-to-end connu précédemment de 25,7 % de WER absolu.

Vers une reconnaissance vocale bout-en-bout compétitive pour la transcription de dîners CHiME-6 | Articles de recherche récents | HyperAI