HyperAIHyperAI

Command Palette

Search for a command to run...

wav2vec : Pré-entraînement non supervisé pour la reconnaissance de la parole

Steffen Schneider Alexei Baevski Ronan Collobert Michael Auli

Résumé

Nous explorons l'entraînement non supervisé préalable pour la reconnaissance vocale en apprenant des représentations d'audio brut. wav2vec est entraîné sur de grandes quantités de données audio non étiquetées, et les représentations obtenues sont ensuite utilisées pour améliorer l'entraînement du modèle acoustique. Nous effectuons un entraînement préalable d'un réseau neuronal convolutif à plusieurs couches simple, optimisé par une tâche de classification binaire par contraste de bruit. Nos expériences sur le corpus WSJ réduisent le taux d'erreur de reconnaissance (WER) d'une ligne de base robuste basée sur les caractères et les filtres log-mel jusqu'à 36 % lorsque seulement quelques heures de données transcrites sont disponibles. Notre approche atteint un WER de 2,43 % sur l'ensemble de test nov92. Cela surpassе le système Deep Speech 2, le meilleur système basé sur les caractères rapporté dans la littérature, tout en utilisant deux ordres de grandeur moins de données d'entraînement étiquetées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
wav2vec : Pré-entraînement non supervisé pour la reconnaissance de la parole | Articles | HyperAI