HyperAIHyperAI

Command Palette

Search for a command to run...

Wav2Seq : Pré-entraînement de modèles encodeur-décodeur de transcription vocale-texte à l’aide de langues pseudo-linguistiques

Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Han Ryan McDonald Kilian Q. Weinberger Yoav Artzi

Résumé

Nous introduisons Wav2Seq, la première approche auto-supervisée permettant de pré-entraîner les deux composantes des modèles encodeur-décodateur sur des données vocales. Nous introduisons une pseudo-langue sous forme de représentation discrète compacte, et formulons une tâche auto-supervisée de reconnaissance vocale pseudo-linguistique — à savoir la transcription d'entrées audio en séquences pseudo-sous-mots. Ce processus peut fonctionner de manière autonome, ou être appliqué comme une étape de pré-entraînement secondaire à faible coût. Nous évaluons notre méthode sur la reconnaissance automatique de parole (ASR), la reconnaissance de noms propres parlés, et la traduction parole-texte. Nous établissons de nouveaux records d’état de l’art pour la reconnaissance end-to-end de noms propres parlés, et observons des améliorations constantes sur 20 paires de langues pour la traduction parole-texte, même lorsque les méthodes de référence utilisent des données textuelles supplémentaires pour l’entraînement. Enfin, pour l’ASR, notre approche permet aux modèles encodeur-décodateur de tirer parti du pré-entraînement pour toutes les parties du réseau, tout en atteignant des performances comparables aux méthodes récentes hautement optimisées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Wav2Seq : Pré-entraînement de modèles encodeur-décodeur de transcription vocale-texte à l’aide de langues pseudo-linguistiques | Articles | HyperAI