HyperAIHyperAI

Command Palette

Search for a command to run...

Speakerbedingte WaveRNN: Ein Schritt hin zu einem universellen neuronalen Vokodierer für unbekannte Sprecher und Aufnahmebedingungen

Dipjyoti Paul Yannis Pantazis Yannis Stylianou

Zusammenfassung

Neuere Fortschritte im Bereich des Deep Learning führten zu menschenähnlicher Leistung bei der Sprachsynthese mit einzelnen Sprechern. Dennoch bestehen weiterhin Einschränkungen hinsichtlich der Sprachqualität, wenn diese Systeme auf Mehrsprachersysteme verallgemeinert werden, insbesondere für unerfahrene Sprecher und unerfahrene Aufnahmeeigenschaften. Beispielsweise werden herkömmliche neuronale Vocoders an den Trainings-Sprecher angepasst und weisen eine schlechte Generalisierungsfähigkeit gegenüber unerfahrenen Sprechern auf. In dieser Arbeit stellen wir eine Variante von WaveRNN vor, die als sprecherbedingtes WaveRNN (SC-WaveRNN) bezeichnet wird. Ziel ist die Entwicklung eines effizienten universellen Vocoders auch für unerfahrene Sprecher und Aufnahmeeigenschaften. Im Gegensatz zum Standard-WaveRNN nutzt SC-WaveRNN zusätzliche Informationen in Form von Sprecher-Embeddings. Unter Verwendung öffentlich verfügbaren Trainingsdatens erreicht SC-WaveRNN signifikant bessere Ergebnisse im Vergleich zum Basis-WaveRNN sowohl in subjektiven als auch in objektiven Metriken. In der MOS (Mean Opinion Score) zeigt SC-WaveRNN eine Verbesserung um etwa 23 % bei bekannten Sprechern und bekannten Aufnahmeeigenschaften und bis zu 95 % bei unbekannten Sprechern und unbekannten Bedingungen. Schließlich erweitern wir unsere Arbeit durch die Implementierung eines Mehrsprecher-Text-zu-Sprache-(TTS)-Synthesesystems, das einer Zero-Shot-Sprecheranpassung ähnelt. In Bezug auf die Leistung wurde unser System gegenüber dem Basis-TTS-System bei bekannten Sprechern um 60 % gegenüber 15,5 % und bei unbekannten Sprechern um 60,9 % gegenüber 32,6 % bevorzugt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp