HyperAIHyperAI

Command Palette

Search for a command to run...

wav2vec 2.0 : Un cadre pour l'apprentissage automatique non supervisé de représentations vocales

Alexei Baevski Henry Zhou Abdelrahman Mohamed Michael Auli

Résumé

Nous montrons pour la première fois que l'apprentissage de représentations puissantes à partir uniquement d'audio vocal, suivi d'un ajustement fin sur des données transcriventes, peut surpasser les meilleures méthodes semi-supervisées tout en étant conceptuellement plus simple. wav2vec 2.0 masque l'entrée vocale dans l'espace latent et résout une tâche contrastive définie sur une quantification des représentations latentes, apprises conjointement. Des expériences menées avec l'ensemble des données étiquetées de Librispeech atteignent un taux d'erreur de mot (WER) de 1,8/3,3 sur les ensembles de test propres/variés. En réduisant la quantité de données étiquetées à une heure, wav2vec 2.0 dépasse l’état de l’art précédent sur le sous-ensemble de 100 heures tout en utilisant 100 fois moins de données étiquetées. En utilisant seulement dix minutes de données étiquetées et un pré-entraînement sur 53 000 heures de données non étiquetées, un WER de 4,8/8,2 est tout de même atteint. Ces résultats démontrent la faisabilité de la reconnaissance vocale avec des quantités limitées de données étiquetées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
wav2vec 2.0 : Un cadre pour l'apprentissage automatique non supervisé de représentations vocales | Articles | HyperAI