HyperAIHyperAI

Command Palette

Search for a command to run...

vq-wav2vec : Apprentissage automatique de représentations discrètes du discours

Alexei Baevski Steffen Schneider Michael Auli

Résumé

Nous proposons vq-wav2vec, une méthode permettant d’apprendre des représentations discrètes de segments audio à l’aide d’une tâche auto-supervisée de prédiction de contexte inspirée de wav2vec. L’algorithme utilise soit une transformation Gumbel-Softmax, soit un regroupement en k-means en ligne afin de quantifier les représentations denses. Cette discrétisation permet d’appliquer directement des algorithmes issus de la communauté du traitement du langage naturel (NLP), qui nécessitent des entrées discrètes. Les expériences montrent que l’entraînement préalable de BERT atteint un nouveau record sur la classification des phonèmes du corpus TIMIT ainsi que sur la reconnaissance vocale du corpus WSJ.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp