HyperAIHyperAI
il y a 17 jours

CR-CTC : Régularisation de cohérence sur CTC pour une reconnaissance vocale améliorée

Zengwei Yao, Wei Kang, Xiaoyu Yang, Fangjun Kuang, Liyong Guo, Han Zhu, Zengrui Jin, Zhaoqing Li, Long Lin, Daniel Povey
CR-CTC : Régularisation de cohérence sur CTC pour une reconnaissance vocale améliorée
Résumé

La Classification Temporelle Connectionniste (CTC) est une méthode largement utilisée pour la reconnaissance automatique de la parole (ASR), reconnue pour sa simplicité et son efficacité computationnelle. Toutefois, elle peine souvent à atteindre des performances de reconnaissance optimales. Dans ce travail, nous proposons une nouvelle approche, appelée CTC régularisée par la cohérence (CR-CTC), qui impose une cohérence entre deux distributions CTC obtenues à partir de deux vues augmentées différentes du mel-spectrogramme de la parole d’entrée. Nous fournissons une analyse approfondie de ses comportements fondamentaux sous trois angles : 1) elle réalise une auto-distillation entre des paires aléatoires de sous-modèles traitant des vues augmentées différentes ; 2) elle apprend des représentations contextuelles grâce à une prédiction masquée des positions situées dans des régions temporellement masquées, particulièrement lorsque la quantité de masquage temporel est augmentée ; 3) elle atténue les distributions CTC extrêmement pointues, réduisant ainsi le surajustement et améliorant la capacité de généralisation. Des expériences étendues sur les jeux de données LibriSpeech, Aishell-1 et GigaSpeech démontrent l’efficacité de notre CR-CTC. Cette méthode améliore significativement les performances de CTC, atteignant des résultats de pointe comparables à ceux obtenus par les modèles transducteurs ou les systèmes combinant CTC et encodeur-décodeur à base d’attention (CTC/AED). Le code source est mis à disposition à l’adresse suivante : https://github.com/k2-fsa/icefall.