Amélioration des embeddings auto-supervisés pour l’amélioration de la parole

Les représentations obtenues par apprentissage auto-supervisé (SSL) pour la parole ont atteint des performances de pointe (SOTA) sur plusieurs tâches en aval. Toutefois, des améliorations restent possibles dans les tâches d’amélioration de la parole (SE). Dans cette étude, nous avons utilisé un extrait de caractéristiques à travers des domaines différents afin de résoudre le problème selon lequel les embeddings SSL peuvent manquer d’informations fines nécessaires à la régénération des signaux vocaux. En intégrant la représentation SSL et le spectrogramme, les performances sont significativement améliorées. Nous avons également exploré la relation entre la robustesse au bruit des représentations SSL, mesurée par la distance propre-bruit (CN distance), et l’importance des couches pour la SE. Nous avons constaté que les représentations SSL présentant une faible robustesse au bruit sont en réalité plus pertinentes pour la tâche d’amélioration. De plus, nos expériences sur le jeu de données VCTK-DEMAND ont montré qu’un ajustement fin (fine-tuning) d’une représentation SSL à l’aide d’un modèle SE permet de surpasser les méthodes SSL actuelles de pointe en termes de PESQ, CSIG et COVL, sans recourir à des architectures réseau complexes. Dans des expériences ultérieures, nous avons observé une augmentation de la CN distance dans les embeddings SSL après ajustement fin. Ces résultats confirment nos hypothèses et pourraient guider la conception future d’entraînement SSL dédié aux tâches d’amélioration de la parole.