Speakerbedingte WaveRNN: Ein Schritt hin zu einem universellen neuronalen Vokodierer für unbekannte Sprecher und Aufnahmebedingungen

Neuere Fortschritte im Bereich des Deep Learning führten zu menschenähnlicher Leistung bei der Sprachsynthese mit einzelnen Sprechern. Dennoch bestehen weiterhin Einschränkungen hinsichtlich der Sprachqualität, wenn diese Systeme auf Mehrsprachersysteme verallgemeinert werden, insbesondere für unerfahrene Sprecher und unerfahrene Aufnahmeeigenschaften. Beispielsweise werden herkömmliche neuronale Vocoders an den Trainings-Sprecher angepasst und weisen eine schlechte Generalisierungsfähigkeit gegenüber unerfahrenen Sprechern auf. In dieser Arbeit stellen wir eine Variante von WaveRNN vor, die als sprecherbedingtes WaveRNN (SC-WaveRNN) bezeichnet wird. Ziel ist die Entwicklung eines effizienten universellen Vocoders auch für unerfahrene Sprecher und Aufnahmeeigenschaften. Im Gegensatz zum Standard-WaveRNN nutzt SC-WaveRNN zusätzliche Informationen in Form von Sprecher-Embeddings. Unter Verwendung öffentlich verfügbaren Trainingsdatens erreicht SC-WaveRNN signifikant bessere Ergebnisse im Vergleich zum Basis-WaveRNN sowohl in subjektiven als auch in objektiven Metriken. In der MOS (Mean Opinion Score) zeigt SC-WaveRNN eine Verbesserung um etwa 23 % bei bekannten Sprechern und bekannten Aufnahmeeigenschaften und bis zu 95 % bei unbekannten Sprechern und unbekannten Bedingungen. Schließlich erweitern wir unsere Arbeit durch die Implementierung eines Mehrsprecher-Text-zu-Sprache-(TTS)-Synthesesystems, das einer Zero-Shot-Sprecheranpassung ähnelt. In Bezug auf die Leistung wurde unser System gegenüber dem Basis-TTS-System bei bekannten Sprechern um 60 % gegenüber 15,5 % und bei unbekannten Sprechern um 60,9 % gegenüber 32,6 % bevorzugt.