SE-MelGAN – sprecheroberflächenunabhängige schnelle Sprachverbesserung

Neuere Fortschritte in der Entwicklung von Generativen adversarialen Netzwerken (GANs) im Bereich der Sprachsynthese [3],[2] haben gezeigt, dass es möglich ist, GANs [8] zuverlässig zu trainieren, um hochwertige, kohärente Wellenformen aus Mel-Spektrogrammen zu generieren. Wir schlagen vor, die Robustheit von MelGAN [3] im Lernen sprachlicher Merkmale auf den Bereich der Sprachverbesserung und Rauschreduktion zu übertragen, ohne dass Modelländerungen erforderlich sind. Unser vorgeschlagener Ansatz generalisiert über Mehrsprach-Sprachdatensätze und ist in der Lage, während der Inferenz auch unbekannte Hintergrundgeräusche robust zu bewältigen. Zudem zeigen wir, dass die Erhöhung der Batch-Größe für diesen Ansatz nicht nur zu verbesserten Sprachergebnissen führt, sondern auch eine einfache Generalisierung über Mehrsprach-Datensätze ermöglicht und eine schnellere Konvergenz bewirkt. Darüber hinaus übertrifft unser Verfahren die bisherige State-of-the-Art-GAN-Methode für Sprachverbesserung, SEGAN [5], in zwei Aspekten: 1. Qualität; 2. Geschwindigkeit. Der vorgeschlagene Ansatz läuft auf einer GPU um mehr als das 100-fache schneller als Echtzeit und auf einer CPU um mehr als das 2-fache schneller als Echtzeit, ohne dass hardwareseitige Optimierungen erforderlich sind – und das mit einer Geschwindigkeit, die der von MelGAN [3] entspricht.