HyperAIHyperAI

Command Palette

Search for a command to run...

L'auto-entraînement et l'entraînement préalable sont complémentaires pour la reconnaissance vocale

Qiantong Xu Alexei Baevski Tatiana Likhomanenko Paden Tomasello Alexis Conneau Ronan Collobert Gabriel Synnaeve Michael Auli

Résumé

L’auto-entraînement et l’entraînement préalable non supervisé se sont imposés comme des approches efficaces pour améliorer les systèmes de reconnaissance vocale à l’aide de données non étiquetées. Toutefois, il n’est pas clair si ces deux méthodes apprennent des motifs similaires ou si elles peuvent être combinées de manière efficace. Dans cet article, nous démontrons que l’étiquetage par pseudo-étiquettes et l’entraînement préalable avec wav2vec 2.0 sont complémentaires dans diverses configurations de données étiquetées. En utilisant uniquement 10 minutes de données étiquetées provenant de Libri-light ainsi que 53 000 heures de données non étiquetées issues de LibriVox, nous atteignons des taux d’erreur de mot (WER) de 3,0 % / 5,2 % sur les ensembles de test propre et autre de LibriSpeech — des résultats comparables aux meilleurs systèmes publiés, entraînés il y a un an uniquement sur 960 heures de données étiquetées. L’entraînement sur l’ensemble complet des données étiquetées de LibriSpeech permet d’obtenir des WER de 1,5 % / 3,1 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp