il y a 17 jours

wav2vec 2.0 : Un cadre pour l'apprentissage automatique non supervisé de représentations vocales

Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

Résumé

Nous montrons pour la première fois que l'apprentissage de représentations puissantes à partir uniquement d'audio vocal, suivi d'un ajustement fin sur des données transcriventes, peut surpasser les meilleures méthodes semi-supervisées tout en étant conceptuellement plus simple. wav2vec 2.0 masque l'entrée vocale dans l'espace latent et résout une tâche contrastive définie sur une quantification des représentations latentes, apprises conjointement. Des expériences menées avec l'ensemble des données étiquetées de Librispeech atteignent un taux d'erreur de mot (WER) de 1,8/3,3 sur les ensembles de test propres/variés. En réduisant la quantité de données étiquetées à une heure, wav2vec 2.0 dépasse l’état de l’art précédent sur le sous-ensemble de 100 heures tout en utilisant 100 fois moins de données étiquetées. En utilisant seulement dix minutes de données étiquetées et un pré-entraînement sur 53 000 heures de données non étiquetées, un WER de 4,8/8,2 est tout de même atteint. Ces résultats démontrent la faisabilité de la reconnaissance vocale avec des quantités limitées de données étiquetées.