Segmentation par CTC de grandes corpora pour la reconnaissance vocale end-to-end en allemand

Les systèmes récents de reconnaissance automatique de la parole (ASR) en boucle complète ont démontré leur capacité à surpasser les systèmes hybrides classiques basés sur les DNN/HMM. En plus des améliorations architecturales, ces modèles ont considérablement augmenté en profondeur, en nombre de paramètres et en capacité. Toutefois, ils nécessitent également des volumes de données d'entraînement plus importants pour atteindre des performances comparables.Dans ce travail, nous combinons des corpus disponibles librement pour la reconnaissance de la parole en allemand, y compris des données audio non étiquetées, afin de constituer un grand jeu de données dépassant 1700 heures d'enregistrements audio. Pour la préparation des données, nous proposons une approche en deux étapes qui utilise un modèle ASR pré-entraîné avec la classification temporelle connexionniste (CTC) afin d’extraire automatiquement davantage de données d’entraînement à partir de données non segmentées ou non étiquetées. Les énoncés sont ensuite extraits à partir des probabilités d’étiquettes obtenues à partir du réseau entraîné avec CTC, afin de déterminer les alignements de segments. Avec ces données d’entraînement, nous avons entraîné un modèle hybride CTC/attention basé sur l’architecture Transformer, qui atteint un taux d’erreur de mot (WER) de 12,8 % sur le jeu de test Tuda-DE, surpassant ainsi la performance précédente de 14,4 % obtenue par les systèmes hybrides classiques DNN/HMM.