HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des embeddings auto-supervisés pour l’amélioration de la parole

Kuo-Hsuan Hung Szu-wei Fu Huan-Hsin Tseng Hsin-Tien Chiang Yu Tsao Chii-Wann Lin

Résumé

Les représentations obtenues par apprentissage auto-supervisé (SSL) pour la parole ont atteint des performances de pointe (SOTA) sur plusieurs tâches en aval. Toutefois, des améliorations restent possibles dans les tâches d’amélioration de la parole (SE). Dans cette étude, nous avons utilisé un extrait de caractéristiques à travers des domaines différents afin de résoudre le problème selon lequel les embeddings SSL peuvent manquer d’informations fines nécessaires à la régénération des signaux vocaux. En intégrant la représentation SSL et le spectrogramme, les performances sont significativement améliorées. Nous avons également exploré la relation entre la robustesse au bruit des représentations SSL, mesurée par la distance propre-bruit (CN distance), et l’importance des couches pour la SE. Nous avons constaté que les représentations SSL présentant une faible robustesse au bruit sont en réalité plus pertinentes pour la tâche d’amélioration. De plus, nos expériences sur le jeu de données VCTK-DEMAND ont montré qu’un ajustement fin (fine-tuning) d’une représentation SSL à l’aide d’un modèle SE permet de surpasser les méthodes SSL actuelles de pointe en termes de PESQ, CSIG et COVL, sans recourir à des architectures réseau complexes. Dans des expériences ultérieures, nous avons observé une augmentation de la CN distance dans les embeddings SSL après ajustement fin. Ces résultats confirment nos hypothèses et pourraient guider la conception future d’entraînement SSL dédié aux tâches d’amélioration de la parole.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp