HyperAIHyperAI

Command Palette

Search for a command to run...

ASR semi-supervisée de séquence à séquence utilisant des données non appariées de parole et de texte

Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký

Résumé

Les modèles de reconnaissance automatique de la parole (ASR) basés sur une séquence à une séquence nécessitent de grandes quantités de données pour atteindre des performances élevées. C'est pourquoi il y a récemment eu un regain d'intérêt pour l'entraînement non supervisé et semi-supervisé de ces modèles. Cette étude s'appuie sur des résultats récents montrant des améliorations notables dans l'entraînement semi-supervisé en utilisant la cohérence cyclique et des techniques connexes. Ces techniques permettent de dériver des procédures d'entraînement et des fonctions de perte capables d'exploiter des données audio et/ou texte non appariées en combinant les modèles ASR avec les modèles de synthèse vocale (TTS). En particulier, cette étude propose une nouvelle fonction de perte semi-supervisée combinant une perte différentiable ASR\rightarrowTTS (de bout en bout) avec une perte TTS\rightarrowASR. La méthode est capable d'exploiter à la fois des données audio et texte non appariées pour surpasser les techniques récemment proposées en termes de taux d'erreur de reconnaissance (WER). Nous fournissons des résultats exhaustifs analysant l'impact de la quantité de données et des modalités audio et texte, et nous montrons des gains constants sur les corpus WSJ et Librispeech. Notre code est disponible dans ESPnet pour reproduire les expériences.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ASR semi-supervisée de séquence à séquence utilisant des données non appariées de parole et de texte | Articles | HyperAI