HyperAIHyperAI
il y a 17 jours

MT4SSL : Renforcer l'apprentissage non supervisé des représentations vocales en intégrant plusieurs objectifs

Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen
MT4SSL : Renforcer l'apprentissage non supervisé des représentations vocales en intégrant plusieurs objectifs
Résumé

Dans cet article, nous proposons une nouvelle perspective sur les modèles de parole auto-supervisés, en nous concentrant sur la manière dont les cibles d'apprentissage sont obtenues. Nous généralisons l'extraction des cibles en deux composants : un extracteur de cibles hors ligne (Off-TE) et un extracteur de cibles en ligne (On-TE). À partir de cette formulation, nous introduisons un nouveau cadre d'apprentissage multi-tâches pour l'apprentissage auto-supervisé, appelé MT4SSL, qui signifie Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL utilise l'algorithme K-means comme Off-TE et un réseau enseignant sans gradients comme On-TE. Notre modèle obtient des performances supérieures à celles des méthodes SSL précédentes sur le benchmark LibriSpeech, avec des marges significatives, et se compare avantageusement, voire excède, les meilleurs modèles existants même avec moins de données. Par ailleurs, nous observons que l'utilisation conjointe de l'Off-TE et de l'On-TE améliore la convergence pendant la phase de pré-entraînement. Grâce à une efficacité et une efficacité remarquables, nous considérons que l'apprentissage multi-tâches sur les modèles de parole auto-supervisés, selon notre approche, représente une tendance prometteuse pour l'avenir.

MT4SSL : Renforcer l'apprentissage non supervisé des représentations vocales en intégrant plusieurs objectifs | Articles de recherche récents | HyperAI