Command Palette
Search for a command to run...
DiaMoE-TTS: Ein einheitlicher, auf IPA basierender Dialekt-TTS-Framework mit Mixture-of-Experts und parameter-effizienter Zero-Shot-Anpassung
Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

Abstract
Dialektsprache verkörpert eine reiche kulturelle und sprachliche Vielfalt, doch die Entwicklung von Text-zu-Sprache-(TTS)-Systemen für Dialekte bleibt aufgrund knapper Daten, inkonsistenter Orthographien und komplexer phonetischer Variationen herausfordernd. Um diese Probleme anzugehen, präsentieren wir DiaMoE-TTS, einen einheitlichen, auf der Internationalen Phonetischen Alphabet (IPA) basierenden Rahmen, der die phonetische Darstellung standardisiert und Ambiguitäten bei der Graphem-zu-Phonem-Umsetzung löst. Aufbauend auf der F5-TTS-Architektur integriert das System einen dialektbewussten Mixture-of-Experts (MoE)-Ansatz zur Modellierung phonologischer Unterschiede und setzt parameter-effiziente Anpassung mittels Low-Rank-Adaptoren (LoRA) sowie Conditionings-Adaptoren ein, um eine schnelle Übertragung auf neue Dialekte zu ermöglichen. Im Gegensatz zu Ansätzen, die auf großskalige oder proprietäre Ressourcen angewiesen sind, erlaubt DiaMoE-TTS eine skalierbare, auf offenen Daten basierende Synthese. Experimente belegen die Erzeugung natürlicher und expressiver Sprache und erreichen eine Zero-Shot-Leistung auch für bisher nicht gesehene Dialekte sowie spezialisierte Bereiche wie Peking-Oper – alles mit lediglich einigen Stunden Trainingsdaten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.