HyperAIHyperAI
il y a 17 jours

Amélioration de la parole par auto-entraînement continu avec remixage par bootstrap

Efthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar
Amélioration de la parole par auto-entraînement continu avec remixage par bootstrap
Résumé

Nous proposons RemixIT, une méthode simple et novatrice d'apprentissage auto-supervisé pour l'amélioration de la parole. Cette approche repose sur un schéma d'apprentissage continu qui surmonte les limitations des travaux antérieurs, notamment les hypothèses sur la distribution du bruit dans le domaine cible et l'accès à des signaux propres (clean) de référence. Plus précisément, un modèle enseignant de séparation est pré-entraîné sur un ensemble de données hors domaine, puis utilisé pour estimer les signaux cibles à partir d’un lot de mélanges dans le domaine cible. Ensuite, nous relançons le processus de mélange en générant des mélanges artificiels à partir de signaux propres et de bruit estimés, permutés de manière aléatoire. Enfin, le modèle étudiant est entraîné en utilisant ces sources estimées permutées comme cibles, tout en mettant à jour périodiquement les poids du modèle enseignant à partir du modèle étudiant le plus récent. Nos expériences montrent que RemixIT surpasser plusieurs méthodes auto-supervisées de pointe précédentes dans diverses tâches d'amélioration de la parole. En outre, RemixIT offre une alternative fluide pour l'adaptation de domaine semi-supervisée et non supervisée dans les tâches d'amélioration de la parole, tout en étant suffisamment générale pour être appliquée à toute tâche de séparation et combinée avec n'importe quel modèle de séparation.

Amélioration de la parole par auto-entraînement continu avec remixage par bootstrap | Articles de recherche récents | HyperAI