HyperAIHyperAI

Command Palette

Search for a command to run...

DiaMoE-TTS Multi-Dialekt-Sprachphonetikdatensatz

Datum

vor 13 Stunden

Organisation

Riesiges Netzwerk
Tsinghua-Universität

Paper-URL

2509.22727

Lizenz

CC BY 4.0

Treten Sie der Discord-Community bei

DiaMoE-TTS ist ein Sprachdatensatz für die Sprachsynthese in verschiedenen Dialekten (Text-to-Speech, TTS), der 2025 von der Tsinghua-Universität in Zusammenarbeit mit Giant Interactive veröffentlicht wurde. Die zugehörige Forschungsarbeit trägt den Titel „…“.DiaMoE-TTS: Ein einheitliches IPA-basiertes Dialekt-TTS-Framework mit Mixture-of-Experts und parametereffizienter Zero-Shot-AdaptionZiel ist es, ein einheitliches phonetisches Repräsentationssystem für Dialekte zu entwickeln, um übertragbare Sprachmodellierung und Zero-Shot-Dialektsyntheseforschung über mehrere Dialekte hinweg zu unterstützen.

Dieser Datensatz basiert auf mehreren Open-Source-Sprachressourcen für Dialekte und verwendet das Internationale Phonetische Alphabet (IPA) als einheitliches phonetisches Repräsentationssystem für eine konsistente phonologische Annotation verschiedener Dialektkorpora. Zu den Sprachquellen gehören der Common Voice Cantonese-Datensatz, das Emilia Mandarin-Korpus, Dialektsprachen aus dem KeSpeech-Korpus und der Open-Source-Sprachdatensatz Minnan (Hokkien). Während der Datenverarbeitung wurden alle Sprachproben einer einheitlichen phonemischen Konvertierung unterzogen, wodurch eine IPA-Frontend-Annotationssequenz erstellt wurde, die dialektübergreifend ausgerichtet werden kann.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp