il y a 17 jours

Wav2Seq : Pré-entraînement de modèles encodeur-décodeur de transcription vocale-texte à l’aide de langues pseudo-linguistiques

Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald, Kilian Q. Weinberger, Yoav Artzi

Résumé

Nous introduisons Wav2Seq, la première approche auto-supervisée permettant de pré-entraîner les deux composantes des modèles encodeur-décodateur sur des données vocales. Nous introduisons une pseudo-langue sous forme de représentation discrète compacte, et formulons une tâche auto-supervisée de reconnaissance vocale pseudo-linguistique — à savoir la transcription d'entrées audio en séquences pseudo-sous-mots. Ce processus peut fonctionner de manière autonome, ou être appliqué comme une étape de pré-entraînement secondaire à faible coût. Nous évaluons notre méthode sur la reconnaissance automatique de parole (ASR), la reconnaissance de noms propres parlés, et la traduction parole-texte. Nous établissons de nouveaux records d’état de l’art pour la reconnaissance end-to-end de noms propres parlés, et observons des améliorations constantes sur 20 paires de langues pour la traduction parole-texte, même lorsque les méthodes de référence utilisent des données textuelles supplémentaires pour l’entraînement. Enfin, pour l’ASR, notre approche permet aux modèles encodeur-décodateur de tirer parti du pré-entraînement pour toutes les parties du réseau, tout en atteignant des performances comparables aux méthodes récentes hautement optimisées.