HyperAIHyperAI

Command Palette

Search for a command to run...

SE-MelGAN – sprecheroberflächenunabhängige schnelle Sprachverbesserung

Luka Chkhetiani Levan Bejanidze

Zusammenfassung

Neuere Fortschritte in der Entwicklung von Generativen adversarialen Netzwerken (GANs) im Bereich der Sprachsynthese [3],[2] haben gezeigt, dass es möglich ist, GANs [8] zuverlässig zu trainieren, um hochwertige, kohärente Wellenformen aus Mel-Spektrogrammen zu generieren. Wir schlagen vor, die Robustheit von MelGAN [3] im Lernen sprachlicher Merkmale auf den Bereich der Sprachverbesserung und Rauschreduktion zu übertragen, ohne dass Modelländerungen erforderlich sind. Unser vorgeschlagener Ansatz generalisiert über Mehrsprach-Sprachdatensätze und ist in der Lage, während der Inferenz auch unbekannte Hintergrundgeräusche robust zu bewältigen. Zudem zeigen wir, dass die Erhöhung der Batch-Größe für diesen Ansatz nicht nur zu verbesserten Sprachergebnissen führt, sondern auch eine einfache Generalisierung über Mehrsprach-Datensätze ermöglicht und eine schnellere Konvergenz bewirkt. Darüber hinaus übertrifft unser Verfahren die bisherige State-of-the-Art-GAN-Methode für Sprachverbesserung, SEGAN [5], in zwei Aspekten: 1. Qualität; 2. Geschwindigkeit. Der vorgeschlagene Ansatz läuft auf einer GPU um mehr als das 100-fache schneller als Echtzeit und auf einer CPU um mehr als das 2-fache schneller als Echtzeit, ohne dass hardwareseitige Optimierungen erforderlich sind – und das mit einer Geschwindigkeit, die der von MelGAN [3] entspricht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SE-MelGAN – sprecheroberflächenunabhängige schnelle Sprachverbesserung | Paper | HyperAI