HyperAIHyperAI
vor 16 Tagen

NaturalSpeech: End-to-End Text-to-Speech-Synthese mit menschennaher Qualität

Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang, Yanqing Liu, Xi Wang, Yichong Leng, Yuanhao Yi, Lei He, Frank Soong, Tao Qin, Sheng Zhao, Tie-Yan Liu
NaturalSpeech: End-to-End Text-to-Speech-Synthese mit menschennaher Qualität
Abstract

Text-to-Speech (TTS) hat in den letzten Jahren sowohl in der akademischen Forschung als auch in der Industrie rapide Fortschritte gemacht. Daraus ergeben sich naturgemäß einige zentrale Fragen: Kann ein TTS-System menschliche Qualität erreichen? Wie lässt sich diese Qualität definieren bzw. bewerten, und wie kann sie erreicht werden? In diesem Paper beantworten wir diese Fragen, indem wir zunächst auf der Grundlage der statistischen Signifikanz subjektiver Bewertungen eine Definition menschlicher Qualität vorschlagen und geeignete Leitlinien zur Beurteilung dieser Qualität entwickeln. Anschließend stellen wir ein TTS-System namens NaturalSpeech vor, das menschliche Qualität auf einem etablierten Benchmark-Datensatz erreicht. Konkret nutzen wir einen variationalen Autoencoder (VAE) für die end-to-end-Generierung von Audiosignalen aus Text und integrieren mehrere Schlüsselkomponenten, um die Fähigkeit des Prior-Modells, basierend auf Text, zu verbessern, und die Komplexität des Posterior-Modells, basierend auf Sprache, zu reduzieren. Zu diesen Komponenten gehören die Phonem-Vortrainierung, eine differenzierbare Dauermodellierung, eine bidirektionale Prior- und Posterior-Modellierung sowie eine Speichermechanismus innerhalb des VAE. Experimentelle Evaluierungen am weit verbreiteten LJSpeech-Datensatz zeigen, dass unser vorgeschlagenes NaturalSpeech-System eine CMOS (Comparative Mean Opinion Score) von -0,01 im Vergleich zu menschlichen Aufnahmen auf Satzebene erreicht, wobei der Wilcoxon-Test für abhängige Stichproben einen p-Wert von p ≫ 0,05 ergibt. Damit wird erstmals auf diesem Datensatz kein statistisch signifikanter Unterschied zwischen dem TTS-System und menschlichen Aufnahmen nachgewiesen.

NaturalSpeech: End-to-End Text-to-Speech-Synthese mit menschennaher Qualität | Neueste Forschungsarbeiten | HyperAI