Command Palette
Search for a command to run...
DiaMoE-TTS Multi-Dialekt-Sprachphonetikdatensatz
DiaMoE-TTS ist ein Sprachdatensatz für die Sprachsynthese in verschiedenen Dialekten (Text-to-Speech, TTS), der 2025 von der Tsinghua-Universität in Zusammenarbeit mit Giant Interactive veröffentlicht wurde. Die zugehörige Forschungsarbeit trägt den Titel „…“.DiaMoE-TTS: Ein einheitliches IPA-basiertes Dialekt-TTS-Framework mit Mixture-of-Experts und parametereffizienter Zero-Shot-AdaptionZiel ist es, ein einheitliches phonetisches Repräsentationssystem für Dialekte zu entwickeln, um übertragbare Sprachmodellierung und Zero-Shot-Dialektsyntheseforschung über mehrere Dialekte hinweg zu unterstützen.
Dieser Datensatz basiert auf mehreren Open-Source-Sprachressourcen für Dialekte und verwendet das Internationale Phonetische Alphabet (IPA) als einheitliches phonetisches Repräsentationssystem für eine konsistente phonologische Annotation verschiedener Dialektkorpora. Zu den Sprachquellen gehören der Common Voice Cantonese-Datensatz, das Emilia Mandarin-Korpus, Dialektsprachen aus dem KeSpeech-Korpus und der Open-Source-Sprachdatensatz Minnan (Hokkien). Während der Datenverarbeitung wurden alle Sprachproben einer einheitlichen phonemischen Konvertierung unterzogen, wodurch eine IPA-Frontend-Annotationssequenz erstellt wurde, die dialektübergreifend ausgerichtet werden kann.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.