g2pM: Ein neuronales Graphem-zu-Phonem-Konvertierungs-Paket für Mandarin-Chinesisch auf Basis eines neuen offenen Benchmark-Datensatzes

Die Konvertierung chinesischer Grapheme in Phoneme (G2P) ist eine wesentliche Komponente von Text-to-Speech-Systemen (TTS) für Standardchinesisch. Eine der größten Herausforderungen bei der G2P-Konvertierung im Chinesischen besteht darin, die Aussprache von Polyphonen zu entambiguieren – Zeichen, die mehrere Aussprachen haben. Obwohl zahlreiche wissenschaftliche Bemühungen unternommen wurden, um dieses Problem anzugehen, gibt es bis heute keinen offenen Datensatz, der als Standardbenchmark für eine faire Vergleichbarkeit dienen kann. Zudem sind die meisten berichteten Systeme für Forscher oder Praktiker schwer nutzbar, die chinesischen Text bequem in Pinyin konvertieren möchten. Angespornt durch diese Erkenntnisse stellen wir in dieser Arbeit einen neuen Benchmark-Datensatz vor, der über 99.000 Sätze zur Entambiguierung chinesischer Polyphone enthält. Wir trainieren ein einfaches neuronales Netzwerkmodell darauf und stellen fest, dass es anderen bestehenden G2P-Systemen überlegen ist. Schließlich verpacken wir unser Projekt und teilen es auf PyPi.