HyperAIHyperAI

Command Palette

Search for a command to run...

Neuronale Sprachsynthese mit Transformer-Netzwerk

Naihan Li; Shujie Liu; Yanqing Liu; Sheng Zhao; Ming Liu; Ming Zhou

Zusammenfassung

Obwohl end-to-end neuronale Text-zu-Sprache (TTS)-Methoden (wie Tacotron2) vorgeschlagen wurden und den aktuellen Stand der Technik erreichen, leiden sie noch an zwei Problemen: 1) geringer Effizienz während des Trainings und der Inferenz; 2) Schwierigkeiten bei der Modellierung langer Abhängigkeiten mit aktuellen rekurrenten neuronalen Netzen (RNNs). Inspiriert durch den Erfolg des Transformer-Netzes im Bereich der neuronalen Maschinübersetzung (NMT), stellen wir in dieser Arbeit eine Anpassung des Multi-Head-Aufmerksamkeitsmechanismus vor, um die RNN-Strukturen sowie den ursprünglichen Aufmerksamkeitsmechanismus in Tacotron2 zu ersetzen. Mit Hilfe des Multi-Head-Selbstaufmerksamkeitsmechanismus werden die verborgenen Zustände im Encoder und Decoder parallel konstruiert, was die Trainings-effizienz verbessert. Gleichzeitig sind beliebige zwei Eingaben zu unterschiedlichen Zeitpunkten direkt durch den Selbstaufmerksamkeitsmechanismus verbunden, was das Problem der langfristigen Abhängigkeiten effektiv löst. Unter Verwendung von Phonemsequenzen als Eingabe generiert unser Transformer-TTS-Netz Mel-Spektrogramme, die anschließend von einem WaveNet-Vocoder in die endgültigen Audiodaten umgewandelt werden. Experimente wurden durchgeführt, um die Effizienz und Leistung unseres neuen Netzwerks zu testen. Was die Effizienz betrifft, kann unser Transformer-TTS-Netz das Training gegenüber Tacotron2 um etwa 4,25 Mal beschleunigen. Was die Leistung betrifft, zeigen strenge menschliche Tests, dass unser vorgeschlagenes Modell den aktuellen Stand der Technik erreicht (Tacotron2 übertrifft es um einen Abstand von 0,048) und sehr nahe am menschlichen Qualitätsniveau liegt (4,39 gegenüber 4,44 im MOS).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp