HyperAIHyperAI

Command Palette

Search for a command to run...

WavLM : Pré-entraînement auto-supervisé à grande échelle pour le traitement intégral du speech

Résumé

L'apprentissage auto-supervisé (SSL) a connu un grand succès dans la reconnaissance vocale, tandis que peu d'efforts ont été déployés pour d'autres tâches de traitement de la parole. Étant donné que le signal vocal contient des informations multidimensionnelles — telles que l'identité du locuteur, les aspects paralinguistiques, le contenu parlé, etc. — la mise en place de représentations universelles adaptées à toutes les tâches vocales s'avère particulièrement complexe. Pour relever ce défi, nous proposons un nouveau modèle pré-entraîné, WavLM, conçu pour traiter de manière intégrée diverses tâches downstream dans le domaine de la parole. WavLM apprend simultanément la prédiction de segments masqués du signal vocal et la suppression du bruit pendant l'étape de pré-entraînement. Grâce à cette approche, WavLM préserve non seulement la capacité à modéliser le contenu vocal via la prédiction des segments masqués, mais renforce également sa performance potentielle sur des tâches autres que la reconnaissance automatique de la parole (ASR) grâce à la débruitage. En outre, WavLM intègre un biais de position relative à seuil dans l'architecture Transformer afin de mieux capturer l'ordre séquentiel des entrées vocales. Nous avons également étendu la taille du jeu de données d'entraînement de 60 000 à 94 000 heures. Le modèle WavLM Large atteint des performances de pointe sur le benchmark SUPERB, et apporte des améliorations significatives pour diverses tâches de traitement de la parole sur leurs benchmarks représentatifs. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://aka.ms/wavlm.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
WavLM : Pré-entraînement auto-supervisé à grande échelle pour le traitement intégral du speech | Articles | HyperAI