g2pW: Ein konditionierter gewichteter Softmax-BERT für die Mehrdeutigkeitsauflösung von Polyphonen im Mandarin

Die Polyphonie-Aufklärung ist die wichtigste Aufgabe bei der Umwandlung von Mandarin-Graphemen in Phoneme (G2P). Frühere Studien haben dieses Problem mit vorab trainierten Sprachmodellen, eingeschränkten Ausgaben und zusätzlichen Informationen aus der Part-of-Speech-Bestimmung (POS) angegangen. Inspiriert durch diese Strategien schlagen wir einen neuen Ansatz vor, den wir g2pW nennen. Dieser passt lernfähige Softmax-Gewichte an, um die Ausgaben von BERT unter Berücksichtigung des polyphonen Zeichens und dessen POS-Bestimmung zu konditionieren. Im Gegensatz zu früheren Arbeiten, die eine harte Maske verwendet haben, zeigen unsere Experimente, dass das Lernen einer weichen Gewichtsfunktion für die Kandidaten-Phoneme die Leistung verbessert. Darüber hinaus benötigt unser vorgeschlagener g2pW keine zusätzlichen vorab trainierten POS-Bestimmungsmodelle, da wir das POS-Bestimmungsmodell gleichzeitig mit dem vereinten Encoder trainieren. Die experimentellen Ergebnisse zeigen, dass unser g2pW bestehende Methoden im öffentlichen CPP-Datensatz übertrifft. Alle Codes, Modellgewichte und ein benutzerfreundliches Paket sind öffentlich zugänglich.