il y a 17 jours
vq-wav2vec : Apprentissage automatique de représentations discrètes du discours
Alexei Baevski, Steffen Schneider, Michael Auli

Résumé
Nous proposons vq-wav2vec, une méthode permettant d’apprendre des représentations discrètes de segments audio à l’aide d’une tâche auto-supervisée de prédiction de contexte inspirée de wav2vec. L’algorithme utilise soit une transformation Gumbel-Softmax, soit un regroupement en k-means en ligne afin de quantifier les représentations denses. Cette discrétisation permet d’appliquer directement des algorithmes issus de la communauté du traitement du langage naturel (NLP), qui nécessitent des entrées discrètes. Les expériences montrent que l’entraînement préalable de BERT atteint un nouveau record sur la classification des phonèmes du corpus TIMIT ainsi que sur la reconnaissance vocale du corpus WSJ.