HyperAIHyperAI
il y a 17 jours

MetricGAN-OKD : Optimisation multi-métrique de MetricGAN par distillation en ligne de connaissances pour l'amélioration de la parole

{Sung Won Han, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, WooSeok Shin}
MetricGAN-OKD : Optimisation multi-métrique de MetricGAN par distillation en ligne de connaissances pour l'amélioration de la parole
Résumé

Dans le domaine du renforcement vocal, les approches basées sur MetricGAN réduisent l’écart entre la perte $L_p$ et les métriques d’évaluation en utilisant une métrique d’évaluation non différentiable comme fonction objectif. Toutefois, l’optimisation simultanée de plusieurs métriques reste un défi en raison du problème des directions de gradient ambiguës. Dans cet article, nous proposons une méthode efficace d’optimisation multi-métriques dans le cadre de MetricGAN, fondée sur une distillation de connaissances en ligne — MetricGAN-OKD. MetricGAN-OKD, composé de plusieurs générateurs et de métriques cibles associées par une correspondance biunivoque, permet aux générateurs d’apprendre de manière fiable par rapport à une seule métrique tout en améliorant leur performance sur les autres métriques grâce à l’imitation des autres générateurs. Les résultats expérimentaux sur des tâches de renforcement vocal et d’amélioration de l’écoute montrent que la méthode proposée améliore significativement les performances selon plusieurs métriques par rapport aux méthodes existantes d’optimisation multi-métriques. En outre, la bonne performance de MetricGAN-OKD est analysée en termes de généralisation du réseau et de corrélation entre les métriques.