il y a 17 jours

WavLM : Pré-entraînement auto-supervisé à grande échelle pour le traitement intégral du speech

Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, Furu Wei

Voir les détails de l'article

WavLM : Pré-entraînement auto-supervisé à grande échelle pour le traitement intégral du speech

Résumé

L'apprentissage auto-supervisé (SSL) a connu un grand succès dans la reconnaissance vocale, tandis que peu d'efforts ont été déployés pour d'autres tâches de traitement de la parole. Étant donné que le signal vocal contient des informations multidimensionnelles — telles que l'identité du locuteur, les aspects paralinguistiques, le contenu parlé, etc. — la mise en place de représentations universelles adaptées à toutes les tâches vocales s'avère particulièrement complexe. Pour relever ce défi, nous proposons un nouveau modèle pré-entraîné, WavLM, conçu pour traiter de manière intégrée diverses tâches downstream dans le domaine de la parole. WavLM apprend simultanément la prédiction de segments masqués du signal vocal et la suppression du bruit pendant l'étape de pré-entraînement. Grâce à cette approche, WavLM préserve non seulement la capacité à modéliser le contenu vocal via la prédiction des segments masqués, mais renforce également sa performance potentielle sur des tâches autres que la reconnaissance automatique de la parole (ASR) grâce à la débruitage. En outre, WavLM intègre un biais de position relative à seuil dans l'architecture Transformer afin de mieux capturer l'ordre séquentiel des entrées vocales. Nous avons également étendu la taille du jeu de données d'entraînement de 60 000 à 94 000 heures. Le modèle WavLM Large atteint des performances de pointe sur le benchmark SUPERB, et apporte des améliorations significatives pour diverses tâches de traitement de la parole sur leurs benchmarks représentatifs. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://aka.ms/wavlm.