il y a 2 mois

ASR semi-supervisée de séquence à séquence utilisant des données non appariées de parole et de texte

Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký

Résumé

Les modèles de reconnaissance automatique de la parole (ASR) basés sur une séquence à une séquence nécessitent de grandes quantités de données pour atteindre des performances élevées. C'est pourquoi il y a récemment eu un regain d'intérêt pour l'entraînement non supervisé et semi-supervisé de ces modèles. Cette étude s'appuie sur des résultats récents montrant des améliorations notables dans l'entraînement semi-supervisé en utilisant la cohérence cyclique et des techniques connexes. Ces techniques permettent de dériver des procédures d'entraînement et des fonctions de perte capables d'exploiter des données audio et/ou texte non appariées en combinant les modèles ASR avec les modèles de synthèse vocale (TTS). En particulier, cette étude propose une nouvelle fonction de perte semi-supervisée combinant une perte différentiable ASR$\rightarrow$TTS (de bout en bout) avec une perte TTS$\rightarrow$ASR. La méthode est capable d'exploiter à la fois des données audio et texte non appariées pour surpasser les techniques récemment proposées en termes de taux d'erreur de reconnaissance (WER). Nous fournissons des résultats exhaustifs analysant l'impact de la quantité de données et des modalités audio et texte, et nous montrons des gains constants sur les corpus WSJ et Librispeech. Notre code est disponible dans ESPnet pour reproduire les expériences.