HyperAIHyperAI
vor 3 Tagen

Marco-Voice Technischer Bericht

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, et al
Marco-Voice Technischer Bericht
Abstract

Diese Arbeit präsentiert ein multifunktionales Sprachsynthesesystem, das die Stimmenklonung und emotionale Steuerung der Sprachsynthese innerhalb eines einheitlichen Rahmens integriert. Ziel dieser Arbeit ist es, langbestehende Herausforderungen bei der Erzeugung von hochausdrucksstarker, kontrollierbarer und natürlicher Sprache zu bewältigen, die die Sprecheridentität unter verschiedenen sprachlichen und emotionalen Kontexten treu bewahrt. Unser Ansatz führt eine effektive Entkoppelung von Sprecheridentität und emotionaler Ausdrucksweise mittels In-Batch-Kontrastlernung ein, wodurch Sprecheridentität und emotionale Stilrichtung unabhängig voneinander manipuliert werden können. Zudem wird eine Methode zur rotationssicheren Integration emotionaler Embeddings vorgestellt, um eine reibungslose emotionale Steuerung zu ermöglichen. Zur Unterstützung umfassender Trainings- und Evaluierungsprozesse haben wir den Datensatz CSEMOTIONS erstellt, einen hochwertigen emotionalen Sprachdatensatz mit insgesamt 10 Stunden Mandarin-Sprache von sechs professionellen Sprechern in sieben emotionalen Kategorien. Ausführliche Experimente zeigen, dass unser System, Marco-Voice, erhebliche Verbesserungen sowohl in objektiven als auch in subjektiven Metriken erzielt. Umfassende Bewertungen und Analysen bestätigen, dass Marco-Voice hervorragende Leistung in Bezug auf Sprachklarheit und emotionale Reichhaltigkeit erbringt und somit einen bedeutenden Fortschritt im Bereich der expressiven neuronalen Sprachsynthese darstellt. Der Quellcode und der Datensatz sind öffentlich unter folgenden URLs verfügbar: [https-URL] und [https-URL].