HyperAIHyperAI
il y a 17 jours

3M : Réseaux de neurones à multi-perte, multi-chemin et multi-niveau pour la reconnaissance vocale

Zhao You, Shulin Feng, Dan Su, Dong Yu
3M : Réseaux de neurones à multi-perte, multi-chemin et multi-niveau pour la reconnaissance vocale
Résumé

Récemment, les modèles ASR basés sur le Conformer et utilisant une perte CTC/AED sont devenus une architecture dominante. Dans cet article, partant de nos travaux antérieurs, nous identifions et intégrons plusieurs approches afin d’obtenir des améliorations supplémentaires pour les tâches de reconnaissance automatique de la parole (ASR), que nous désignons sous le nom de modèle « 3M », regroupant les approches multi-perte, multi-chemin et multi-niveau. Plus précisément, la « multi-perte » fait référence à l’optimisation conjointe de la perte CTC/AED, tandis que la « multi-chemin » désigne l’architecture Mixture-of-Experts (MoE), permettant d’accroître efficacement la capacité du modèle sans augmenter de manière significative le coût computationnel. Enfin, la « multi-niveau » consiste à introduire des pertes auxiliaires à plusieurs niveaux d’un modèle profond afin d’améliorer l’apprentissage. Nous évaluons notre méthode proposée sur le jeu de données public WenetSpeech. Les résultats expérimentaux montrent que la méthode proposée améliore de 12,2 % à 17,6 % le taux d’erreur de caractères (CER) par rapport au modèle de référence entraîné avec l’outil Wenet. Sur notre propre jeu de données à grande échelle comprenant 150 000 heures de corpus, le modèle 3M démontre également une supériorité nette par rapport au modèle Conformer de référence. Le code source est disponible publiquement à l’adresse suivante : https://github.com/tencent-ailab/3m-asr.