HyperAIHyperAI
vor 17 Tagen

SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks

Vasily Zadorozhnyy, Qiang Ye, Kazuhito Koishida
SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks
Abstract

In den letzten Jahren haben Generative Adversarial Networks (GANs) erheblich verbesserte Ergebnisse bei Aufgaben der Sprachverbesserung (Speech Enhancement, SE) erzielt. Sie sind jedoch schwer zu trainieren. In dieser Arbeit stellen wir mehrere Verbesserungen an den GAN-Trainingsverfahren vor, die auf die meisten GAN-basierten SE-Modelle angewendet werden können. Wir schlagen die Verwendung von Konsistenzverlustfunktionen vor, die darauf abzielen, die Inkonsistenzen im Zeit- und Zeit-Frequenz-Bereich zu beheben, die durch Fourier- und Inverse-Fourier-Transformationen verursacht werden. Außerdem präsentieren wir eine selbstkorrigierende Optimierung für die Ausbildung eines GAN-Discriminators im Kontext von SE-Aufgaben, die hilft, „schädliche“ Trainingsrichtungen für Teile der Discriminator-Verlustfunktion zu vermeiden. Wir haben unsere vorgeschlagenen Methoden an mehreren state-of-the-art GAN-basierten SE-Modellen getestet und konnten konsistente Verbesserungen erzielen, darunter auch neue state-of-the-art-Ergebnisse für die Voice Bank+DEMAND-Datenbank.